【原创】赛灵思强大FPGA加持,浪潮推出极致性能AI加速卡F37X

winniewei 提交于 周四, 10/18/2018
【原创】赛灵思强大FPGA加持,浪潮推出极致性能AI加速卡F37X

作者: 张国斌

物联网、人工智能技术的走热,产生了大量的数据,而这些数据的处理也大幅度增加了数据中心的能耗。调研数据显示,在全球范围内,数据中心已经成为全球能源使用规模最大的用户,将从2015年的0.9%上升到2025年的4.5%。而且到2025年,数据中心的能耗将占ICT行业总能耗的33%,如果数据中心不考虑降低能耗,则数据中心的碳足迹将达到全球碳足迹的5.5%!因此,很多数据中心运营商都要考虑保持大规模性能需求和运营效率之间的平衡,要获得性能和效率的同时提升,就要考虑通过FPGA加速卡降低能耗,因此,FPGA加速卡正成为数据中心加速应用的主流,这也进一步刺激服务器厂商加速提供各类基于FPGA的加速卡。

10月16日,在北京举行的2018XDF赛灵思开发者大会上,领先的AI计算力厂商浪潮联合赛灵思推出了全球首款集成HBM2高速缓存的FPGA AI加速卡F37X。该卡可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,适合机器学习推理、视频转码、图像识别、语音识别、自然语言处理、基因组测序分析、NFV、大数据分析查询等各类应用场景,实现高性能、高带宽、低延迟、低功耗的AI计算加速!

图1   F37X加速卡

图1   F37X加速卡

据介绍,F37X是浪潮专为AI极致性能设计的尖端FPGA加速卡,它采用Xilinx Virtex UltraScale+架构,提供285万个系统逻辑单元和9024个DSP单元,INT8计算性能达到了28.1TOPS,集成8GB HBM2高速缓存,带宽达460GB/s,相比单DDR4 DIMM提升20倍。

当AI计算模型尺寸小于HBM2容量时,可全部预先载入高速缓存之中,消除了外部读写带来的数据传输延迟并提高处理速度,使AI计算完全放到片上成为可能。性能数据显示,浪潮F37X在AI图像识别实时推理场景,基于GoogLeNet深度学习网络模型,当BatchSize=1时性能高达8600 images/s,是CPU性能的40倍。F37X典型应用功耗仅为75瓦,性能功耗比高达375Gops/W。此外,F37X板载24GB DDR4内存及双端口100Gbps高速网络接口。F37X设计为全高半长PCI-E 3.0板卡,紧致的尺寸可使得单台AI服务器支持更多加速卡设备,从而提供极限计算与通信性能。

除了有强大的计算能力,这款加速卡还提供了出色的灵活性,它提供C/C++, RTL和OpenCL开发环境,可灵活快速迁移不同AI场景的定制算法模型。

个人认为浪潮与赛灵思的合作堪称强强联合,首先,浪潮是老牌的服务器厂商,服务器出货量全球前三、中国第一,拥有CPU、GPU和FPGA为核心的服务器全线产品。在FPGA加速卡与CPU服务器耦合设计、硬件搭建等方面具有天然优势,能够给客户交付一体化集成解决方案。

其次,浪潮近年来在AI业务领域全面发力,建立了计算平台、管理套件、框架优化、端到端解决方案在内的四层全栈式AI业务布局。同时,浪潮也成为AI计算领域市场份额最高的厂商,百度、阿里和腾讯的最主要的AI服务器供应商。据IDC《2017年中国AI基础架构市场调查报告》显示,浪潮AI服务器市场份额达57%高居第一。浪潮与科大讯飞、商汤、旷视、今日头条、滴滴等人工智能领先科技公司保持在系统与应用方面的深入紧密合作,帮助AI客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。

而互联网行业正是数据中心业务发展的先行者。浪潮通过与这些领先的互联网企业开展合作,提供IT基础架构的云化部署和调优AI,带动了自身业务的发展;更重要的是,能够更深入地理解互联网行业的业务需求,从而针对性提供数据中心更适用的FPGA计算加速设备。此前,浪潮已基于主流FPGA芯片,开发出高密度、高性能、易编程的FPGA异构加速运算卡,并且在机器学习、视频分析、语音识别、文本搜索等场景得到了很好的落地应用。

而赛灵思是FPGA领域的领头羊,长期占据FPGA龙头地位。近两年来,赛灵思经济实施战略转型,今年3月更提出三个战略框架:数据中心优先,加速核心市场发展,驱动灵活应变的计算,赛灵思的FPGA产品多年来保持工艺领先,架构领先,更通过软件可编程降低加速卡开发门槛,因此全球七大数据中心中的六家都采用了赛灵思的FPGA实现加速卡!

而随着人工智能、5G通信、大数据、云计算等应用的出现,这些应用需要高吞吐、低延迟、高密度部署等特性,传统的DDR SRAM技术不能满足人们对带宽的需求,HBM(High Bandwidth Memory)应运而生,其实HBM就是一种新型的3D内存技术,采用垂直堆叠的方式实现高速数据传输,基于这种设计,信息交换的时间将会缩短,此外它重新调整了内存的功耗效率,使得每瓦带宽比相对于最先进的GDDR5高出了3倍多,即功耗降低3倍多!这是几种提升传输速率技术的对比!HBM提升的最高!

2

实际上,早在2016年Xilinx就提出了开发Virtex UltraScale+ HBM FPGA器件,Xilinx已经推出的Virtex UltraScale+ HBM系列FPGA共包括四款,分别是VU31P、VU33P、VU35P和VU37P,每款器件都集成了32或64位HBM DRAM以及超过1000 I/O接口。

赛灵思加速专家表示,此次与浪潮联合推出的F37X是全球首款集成片上HBM2的FPGA加速卡,HBM2带宽高达460GB/s!比单DDR4 DIMM提升20倍,CNN吞吐量*8600img/s!

浪潮集团副总裁李金在2018XDF

浪潮集团副总裁李金在2018XDF

浪潮集团副总裁李金表示:“AI正以前所未有的速度重构产业创新,AI算法将不断快速迭代,线上推理将成为AI计算的主要场景。浪潮一直致力创新FPGA软硬件技术,帮助客户持续获得领先的AI计算竞争力。浪潮F37X加速卡将为全球用户提供快速可定制、实时高性能、高密低功耗的先进的FPGA解决方案,加速AI应用的线上部署。”

赛灵思公司数据中心销售副总裁Freddy Engineer表示:“浪潮因产品执行和创新而享誉全球。浪潮将为客户提供搭载Xilinx加速卡的服务器,我们为此而自豪。我们非常高兴能成为浪潮的开发合作伙伴,联合推出突破性产品F37X,它通过HBM2提供前所未有的内存带宽,将加速数据分析、AI和需要最低延迟数据访问的工作负载。”

除此次联合发布的FPGA加速卡外,目前,赛灵思的U200、U250芯片也已在浪潮NF5280M5、NF5468M5、GX4等多款AI服务器上进行了认证和测试,分别应用在智能视频领域、AI等应用场景下。与赛灵思的合作,进一步巩固了浪潮在AI计算领域的领军者地位!而通过与浪潮合作,赛灵思将进一步扩大市场份额,同时也在FPGA生态构建方面,多了一位强有力的合作伙伴。

在这场双赢的合作中,浪潮、赛灵思都将获益,而获益更多的将是大量中国的互联网、AI企业!携手赛灵思,浪潮的未来星河璀璨!加油!

注:本文为原创文章,转载请注明作者及来源

相关文章

Digi-Key