英特尔、Habana Labs与Hugging Face推动Transformer业务在训练和推理优化及扩展取得关键进展

winniewei -- 周二, 12/13/2022 - 09:34

在过去的一年中，英特尔、Habana Labs和Hugging Face基于开源项目、集成开发者体验与科学研究，不断提升人工智能应用的效率并降低使用门槛，在创建和训练高质量Transformer模型上取得了重大进展。

Transformer模型为包括自然语言处理（NLP）、计算机视觉（CV）、语音等在内广泛的机器学习和深度学习任务提供先进的性能。大规模训练这些深度学习模型需要庞大的算力，这个过程非常复杂，不仅需要大量时间，而且成本高昂。

通过英特尔颠覆者计划（Intel Disruptor Program）与Hugging Face密切合作，能够帮助用户更广泛地采用基于最新英特尔^®至强^®可扩展处理器、Habana Gaudi^®以及Gaudi^®2处理器优化的训练和推理解决方案。此次合作将英特尔AI工具包中先进的深度学习创新技术引入Hugging Face的开源生态系统中，并以此推动未来英特尔^®架构的创新发展，在英特尔至强平台上的分布式调优、内置优化、配合Habana Gaudi加速训练，以及小样本学习方面均取得了重大进展。

当使用单节点CPU进行训练速度不佳时，数据科学家们就需要分布式训练。在分布式训练中，集群中的每台服务器都保留一个模型副本，利用训练数据集的一部分进行训练，并通过英特尔^®oneAPI集体通信库（Collective Communications Library）在各节点之间交换结果，从而更快地收敛到最终模型。目前，Transformer可原生支持该功能，并使数据科学家们更容易地进行分布式调优。

例如，在英特尔至强可扩展处理器的分布式集群上加速Transformer模型的PyTorch训练时，为在PyTorch中能够有效利用英特尔^®高级矩阵扩展（英特尔^®AMX）、AVX-512以及英特尔矢量神经网络指令（VNNI）等最新英特尔至强可扩展处理器所支持的硬件性能，英特尔为PyTorch设计了英特尔扩展，该软件库可为训练和推理提供开箱即用的加速功能。

此外，Hugging Face Transformer提供Trainer API，使用户可以无需手动编写训练循环，更轻松地开始训练。该Trainer为超参数搜索提供API，目前可支持多个搜索后端，其中包括可托管的超参数优化服务英特尔SigOpt。得益于此，数据科学家们可以更有效地训练并获取最佳模型。

非凡的开发者体验

Optimum是Hugging Face创建的一个开源库，用于在日益增长的训练及推理设备中简化Transformer的加速。通过其内置的优化技术和现成的脚本，初学者可以轻松地上手使用Optimum，而专家则可以通过不断调整以获得最佳性能。

“Optimum Intel”是Transformer库与英特尔所提供的不同工具和库之间的接口，用于加速英特尔架构上的端到端管线。该接口基于英特尔^®神经压缩器所开发，为包括量化、剪枝、知识提取等多项网络压缩技术提供跨多个深度学习框架的统一体验。此外，开发人员亦可使用Optimum Intel来进行针对评估数据集的模型指标对比，从而更加轻松地在Transformer模型上运行训练后量化（PTQ）。

与此同时，Optimum Intel还提供了一个简单的接口来优化Transformer模型，并将模型转换为OpenVINO的中间层表示（IR），从而使用OpenVINO进行推理。

利用Habana Gaudi加速训练

现阶段，Habana Labs正携手Hugging Face更简易、快速地训练大规模、高质量的Transformer模型。得益于Habana的SynapseAI® 软件套件与Hugging Face Optimum-Habana开源库，数据科学家和机器学习工程师能够通过在Habana Gaudi和Habana Gaudi2处理器上运行几行代码，加速Transformer深度学习的训练。

Optimum-Habana库支持各种计算机视觉、自然语言和多模态模型。其支持且经过测试的模型架构包括BERT、AlBERT、DistilBERT、RoBERTa、Vision Transformer、swin、T5、GPT2、wav2vec2和Stable Diffusion。Hugging Facehub上目前已有4万多个基于这些架构的模型，而开发人员可以使用Optimum-Habana在Gaudi和Gaudi2上轻松地使用这些模型¹。

Habana Gaudi解决方案已经用于亚马逊EC2 DL1实例，采用该解决方案进行训练的一个主要优势是性价比。Habana Gaudi的性价比与同类训练解决方案相比高40%，使客户能用更少的成本进行更多训练²，Gaudi2采用与第一代Gaudi相同的高效架构，同样提供了卓越的性价比。

Habana DeepSpeed也集成在Optimum-Habana库中，让人们在使用DeepSpeed优化的Gaudi设备时，能更易于大规模部署和训练大型语言模型。您可以通过Optimum Habana DeepSpeed使用指南了解更多信息。

最新版的Optimum-Habana在Hugging Facediffusers库中内置支持Stable Diffusion，使Hugging Face开发者能够在Habana Gaudi上进行极具性价比的图像生成测试。

生产中的小样本学习

英特尔研究院、Hugging Face和UKP Lab最近推出了SetFit，这是一种用于对Sentence Transformer进行小样本调优的有效框架。使用预先训练的语言模型进行小样本学习，将有望解决数据科学家在现实中面临的一大挑战：处理那些几乎没有标签的数据。

当前的小样本调优需要手工提示或描述器，将示例转换为适合底层语言模型的格式。通过直接从少量有标签的文本示例中直接生成丰富的嵌入，SetFit可省去提示。

研究人员设计了SetFit，可用于Hugging Face Hub上的任何Sentence Transformer，即通过调优多语言检查点，可以将文本分类为多种语言。

SetFit不需要像T5或GPT-3这样的大模型来实现高精度。与标准调优相比，它显著提高了采样效率并能够更好地耐受噪声。例如，对于在一个示例情感数据集上每类只有八个有标签的例子，SetFit可以与在包含3000个例子的完整训练集上的RoBERTa Large调优相媲美。Hugging Face发现，在零提示且体积缩小27倍的情况下，SetFit也取得了与T-Few 3B相当的效果，从而实现了兼具低成本和高效的训练³。

一直以来，英特尔致力于积极构建生态系统并助力降低AI成本，包括开源项目、集成的开发者体验和科学研究等举措。而工具和软件恰恰能够让开发人员加快构建应用程序，并释放处理器性能。英特尔旨在让人们能够更轻松地在任何地方构建和部署AI，使数据科学家和机器学习从业者能够采用最新的优化技术。

注释：

¹基于Hugging Face搜索查询：https://huggingface.co/models?other=or:bert,stable-diffusion-diffusers,albert,wav2vec2,vit,swin,t5,distilbert,roberta,gpt2。这个查询会过滤所有已经测试、验证并在Optimum-Habana中得到支持的Hugging Face模型。
² 基于AWS计算的价格和性能，对比了基于GPU的类似AWS实例。更多信息参见亚马逊相关新闻稿：https://press.aboutamazon.com/2021/10/aws-announces-general-availability-of-amazon-ec2-dl1-instances
³有关性能的详情参见完整论文：https://arxiv.org/abs/2209.11055和博客文章：https://huggingface.co/blog/setfit。

关于英特尔

英特尔（NASDAQ: INTC）作为行业引领者，创造改变世界的技术，推动全球进步并让生活丰富多彩。在摩尔定律的启迪下，我们不断致力于推进半导体设计与制造，帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备，我们释放数据潜能，助力商业和社会变得更美好。如需了解英特尔创新的更多信息，请访问英特尔中国新闻中心intel.cn/content/www/cn/zh/newsroom以及官方网站intel.cn。

登录或注册后发表评论