英特尔、Habana Labs与Hugging Face推动Transformer业务在训练和推理优化及扩展取得关键进展

在过去的一年中,英特尔、Habana LabsHugging Face基于开源项目、集成开发者体验与科学研究,不断提升人工智能应用的效率并降低使用门槛,在创建和训练高质量Transformer模型上取得了重大进展。

Transformer模型为包括自然语言处理(NLP)、计算机视觉(CV)、语音等在内广泛的机器学习和深度学习任务提供先进的性能。大规模训练这些深度学习模型需要庞大的算力,这个过程非常复杂,不仅需要大量时间,而且成本高昂。

通过英特尔颠覆者计划(Intel Disruptor Program)与Hugging Face密切合作,能够帮助用户更广泛地采用基于最新英特尔®至强®可扩展处理器、Habana Gaudi®以及Gaudi®2处理器优化的训练和推理解决方案。此次合作将英特尔AI工具包中先进的深度学习创新技术引入Hugging Face的开源生态系统中,并以此推动未来英特尔®架构的创新发展,在英特尔至强平台上的分布式调优、内置优化、配合Habana Gaudi加速训练,以及小样本学习方面均取得了重大进展。

当使用单节点CPU进行训练速度不佳时,数据科学家们就需要分布式训练。在分布式训练中,集群中的每台服务器都保留一个模型副本,利用训练数据集的一部分进行训练,并通过英特尔®oneAPI集体通信库(Collective Communications Library)在各节点之间交换结果,从而更快地收敛到最终模型。目前,Transformer可原生支持该功能,并使数据科学家们更容易地进行分布式调优。

例如,在英特尔至强可扩展处理器的分布式集群上加速Transformer模型的PyTorch训练时,为在PyTorch中能够有效利用英特尔®高级矩阵扩展(英特尔®AMX)、AVX-512以及英特尔矢量神经网络指令(VNNI)等最新英特尔至强可扩展处理器所支持的硬件性能,英特尔为PyTorch设计了英特尔扩展,该软件库可为训练和推理提供开箱即用的加速功能。

此外,Hugging Face Transformer提供Trainer API,使用户可以无需手动编写训练循环,更轻松地开始训练。该Trainer为超参数搜索提供API,目前可支持多个搜索后端,其中包括可托管的超参数优化服务英特尔SigOpt。得益于此,数据科学家们可以更有效地训练并获取最佳模型。

非凡的开发者体验

OptimumHugging Face创建的一个开源库,用于在日益增长的训练及推理设备中简化Transformer的加速。通过其内置的优化技术和现成的脚本,初学者可以轻松地上手使用Optimum,而专家则可以通过不断调整以获得最佳性能。

“Optimum Intel”Transformer库与英特尔所提供的不同工具和库之间的接口,用于加速英特尔架构上的端到端管线。该接口基于英特尔®神经压缩器所开发,为包括量化、剪枝、知识提取等多项网络压缩技术提供跨多个深度学习框架的统一体验。此外,开发人员亦可使用Optimum Intel来进行针对评估数据集的模型指标对比,从而更加轻松地在Transformer模型上运行训练后量化(PTQ)。

与此同时,Optimum Intel还提供了一个简单的接口来优化Transformer模型,并将模型转换为OpenVINO的中间层表示(IR),从而使用OpenVINO进行推理。

利用Habana Gaudi加速训练

现阶段,Habana Labs正携手Hugging Face更简易、快速地训练大规模、高质量的Transformer模型。得益于HabanaSynapseAI® 软件套件与Hugging Face Optimum-Habana开源库,数据科学家和机器学习工程师能够通过在Habana GaudiHabana Gaudi2处理器上运行几行代码,加速Transformer深度学习的训练。

Optimum-Habana库支持各种计算机视觉、自然语言和多模态模型。其支持且经过测试的模型架构包括BERT、AlBERT、DistilBERT、RoBERTa、Vision Transformer、swin、T5、GPT2、wav2vec2和Stable Diffusion。Hugging Facehub上目前已有4万多个基于这些架构的模型,而开发人员可以使用Optimum-Habana在Gaudi和Gaudi2上轻松地使用这些模型1

Habana Gaudi解决方案已经用于亚马逊EC2 DL1实例,采用该解决方案进行训练的一个主要优势是性价比。Habana Gaudi的性价比与同类训练解决方案相比高40%,使客户能用更少的成本进行更多训练2Gaudi2采用与第一代Gaudi相同的高效架构,同样提供了卓越的性价比。

Habana DeepSpeed也集成在Optimum-Habana库中,让人们在使用DeepSpeed优化的Gaudi设备时,能更易于大规模部署和训练大型语言模型。您可以通过Optimum Habana DeepSpeed使用指南了解更多信息。

最新版的Optimum-HabanaHugging Facediffusers库中内置支持Stable Diffusion,使Hugging Face开发者能够在Habana Gaudi上进行极具性价比的图像生成测试。

生产中的小样本学习

英特尔研究院、Hugging FaceUKP Lab最近推出了SetFit,这是一种用于对Sentence Transformer进行小样本调优的有效框架。使用预先训练的语言模型进行小样本学习,将有望解决数据科学家在现实中面临的一大挑战:处理那些几乎没有标签的数据。

当前的小样本调优需要手工提示或描述器,将示例转换为适合底层语言模型的格式。通过直接从少量有标签的文本示例中直接生成丰富的嵌入,SetFit可省去提示。

研究人员设计了SetFit,可用于Hugging Face Hub上的任何Sentence Transformer,即通过调优多语言检查点,可以将文本分类为多种语言。

SetFit不需要像T5GPT-3这样的大模型来实现高精度。与标准调优相比,它显著提高了采样效率并能够更好地耐受噪声。例如,对于在一个示例情感数据集上每类只有八个有标签的例子,SetFit可以与在包含3000个例子的完整训练集上的RoBERTa Large调优相媲美。Hugging Face发现,在零提示且体积缩小27倍的情况下,SetFit也取得了与T-Few 3B相当的效果,从而实现了兼具低成本和高效的训练3

一直以来,英特尔致力于积极构建生态系统并助力降低AI成本,包括开源项目、集成的开发者体验和科学研究等举措。而工具和软件恰恰能够让开发人员加快构建应用程序,并释放处理器性能。英特尔旨在让人们能够更轻松地在任何地方构建和部署AI,使数据科学家和机器学习从业者能够采用最新的优化技术。

注释:

1基于Hugging Face搜索查询:https://huggingface.co/models?other=or:bert,stable-diffusion-diffusers,albert,wav2vec2,vit,swin,t5,distilbert,roberta,gpt2。这个查询会过滤所有已经测试、验证并在Optimum-Habana中得到支持的Hugging Face模型。
2 
基于AWS计算的价格和性能,对比了基于GPU的类似AWS实例。更多信息参见亚马逊相关新闻稿:https://press.aboutamazon.com/2021/10/aws-announces-general-availability-of-amazon-ec2-dl1-instances 
3
有关性能的详情参见完整论文:https://arxiv.org/abs/2209.11055和博客文章:https://huggingface.co/blog/setfit

关于英特尔

英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心intel.cn/content/www/cn/zh/newsroom以及官方网站intel.cn


最新文章