【原创】英特尔花了5年布了一个大局

winniewei 提交于 周三, 11/18/2020
【原创】英特尔花了5年布了一个大局

作者:张国斌

下棋对弈,一般选手只能看三五步,而顶尖高手可以看到20步!这就是战略思维!顶级企业必须有战略思维!而战略一旦制定,就会坚定不移地执行下去,英特尔就是这样一家企业。

近期,英特尔总是处于风口浪尖,常常被媒体们拿来做创新乏力的典型来鞭笞,因为,这5年来,英特尔的种种作为让很多人看不明白,它似乎偏离了主航道,而对手们则似乎在高歌猛进。

但是,

时间是个好东西,它可以让我们捋清真相。

其实,

这5年来,英特尔布了一个大局,所有的收购、战略调整、人事变动都是围绕这个大局,到2020年11月11日,也就是我们熟悉的双十一那天,英特尔终于把最后一个空填满,这个大局成了,它要支撑英特尔未来十年的高速发展。

1、5年回首

要理解英特尔的大局,让我们先捋一捋英特尔这5年都干了什么。

2015年,英特尔洞察到数据的颠覆性作用,提出数据将改变未来计算格局乃至整个世界。

2015年6月,英特尔以167亿美元天价收购了FPGA 二当家Altera,开启了其长达5年的布局之旅。

2016 年8月,英特尔出手收购了主攻深度学习的公司 Nervana  Systems ;

2016年9月,英特尔再出手收购了计算机视觉初创公司 Movidius,该公司主要产品为低功耗视觉处理器Myriad 系列 VPU。

【原创】英特尔花了5年布了一个大局

2017年,英特尔确立“以数据为中心”的战略转型目标,致力于释放数据指数级增长带来的无限潜能,并以“六大技术支柱”的共同创新为突破口,为业界提供领先的数据处理、存储和传输的云到端产品与解决方案,为驱动科技发展与创新奠定基石。

2017年3月,英特尔收购了自动驾驶领域的领军企业Mobileye ,这家创建于 1999 年的以色列公司,主要致力于汽车计算机视觉领域的研究。

【原创】英特尔花了5年布了一个大局

2017年11月,时年49岁的GPU领域大神--他曾是AMD Radeon Technologies Group 的部门负责人 Raja Koduri加盟英特尔,担任英特尔 GPU 首席架构师、高级副总裁以及新成立的核心和视觉计算事业部(Core and Visual Computing Group)边缘计算解决方案总经理。现年49岁的Koduri是一位从业二十多年、经验丰富的明星,他成了英特尔大局中的关键人物。

2018年7月,英特尔收购eASIC公司,eASIC可为“结构化ASIC”开发FPGA设计工具。结构化ASIC是FPGA和ASIC之间的中间体,可满足快速推出和低成本需求。从技术上讲,英特尔自2015年以来一直在其定制Xeons中使用eASIC技术,但这次收购意味着eASIC团队将成为英特尔可编程解决方案组(PSG)的一部分。

2019 年12月16日,英特尔以20亿美元收购Habana Labs,这是一家为数据中心提供可编程深度学习加速器的厂商。Habana的Gaudi人工智能训练处理器目前正在为特定超大规模客户提供样品,与使用同等数量GPU构建的系统相比,基于Gaudi的大节点训练系统的吞吐量预计将增加4倍。Gaudi旨在让系统实现高效灵活的横向、纵向扩展。 

2020年11月11日,英特尔终于把最后一个空填满--英特尔正式宣布® oneAPI Gold工具包将于今年12月正式交付,此外,英特尔正式发布其首款数据中心独立图形显卡。该服务器GPU基于Xe-LP微架构,专为高密度、低时延的安卓云游戏和流媒体服务而设计。

【原创】英特尔花了5年布了一个大局

英特尔高级副总裁、首席架构师兼架构、图形与软件部门总经理Raja Koduri表示:“今天是英特尔oneAPI和XPU宏大计划的重要时刻。随着oneAPI Gold版本的发布,开发者编程体验将更加丰富,oneAPI不仅拥有开发者熟悉的CPU编程库和工具,也包含矢量-矩阵-空间这种混合架构的编程库和工具。同时,我们还推出了基于Xe-LP微架构的首款数据中心GPU,以满足快速增长的云游戏和流媒体市场需求。”

5年时间 ,英特尔完成了战略转型和升级。

同样是11月11日,苹果发布基于ARM架构的笔记本处理器M1,其“彪悍”的性能让很多媒体在吹捧的同时不忘再把英特尔拉来当做反面典型鞭笞和嘲讽。

“牙膏厂”是英特尔的别称,形容其处理器性能改进如同挤牙膏。

不过

燕雀焉知鸿鹄之志

英特尔志存高远,又岂会在终端一颗芯片上纠结徘徊?英特尔的目光瞄上的是另一个大市场!

2、数据大局

要理解英特尔的大局,我们先要看看未来世界最重要的趋势。

【原创】英特尔花了5年布了一个大局

毫无疑问,数据是未来最重要的资源,数据无处不在 ,对数据的分析和提炼又反过来给我们的现实世界提供帮助---这就是人工智能技术,所以大数据和人工智能是未来最重要的两个技术,而随着5G的商用,又会加速这两个技术的融合和普及。

过去30年,计算是英特尔的主旋律,围绕计算,英特尔不断增强处理器性能,不断提升工艺技术,而未来,数据将成为英特尔的重点。

如今,无论是汽车、零售商店,还是医院、家庭、工厂,所有物和设备变得越来越像一台台“计算机”,智能变得无处不在,数据不仅呈现指数级增长,其形态也变得日益多样化。

数据显示,从2018年至2025年,全球的数据增长量达到5倍以上,将从2018年的32 ZB增至2025年的175 ZB。然而,这些数据的分析和使用必须借助数据中心强大的计算平台来完成,对数据中心而言,这是难得的机遇,更是前所未有的挑战。

【原创】英特尔花了5年布了一个大局

然而,未经处理的数据毫无价值,只有将数据转化为业务价值,才能创造新的服务和体验。英特尔认为,人工智能、5G、边缘智能是当今三大转折性技术领域。这三项技术的交汇与叠加,是构建下一波应用创新的关键驱动力。

这三项技术如何交汇与叠加?开发者该如何使用挖掘各种数据价值?该构架一个什么样的平台来全球开发者共享数据洪流?

5年来,英特尔所做的工作就是对这些问题的回答--我的理解就是英特尔要打造一个能支持各种数据处理、挖掘、支持跨平台开发的软硬件一体化云端平台,以便把各种数据一网打尽,输出价值。

【原创】英特尔花了5年布了一个大局

所以,5年来,英特尔所有的布局都是围绕这个目标,六大技术支柱其实就是它实现这个目标的手段--分别从处理器架构、工艺、封装(实现异构处理器)、互联、存储、软件、安全去打造一个新的平台。

【原创】英特尔花了5年布了一个大局

随着5G的应用深入,我们看到未来云、边、端一体的趋势日益明显,以人工智能为例,虽然是仿生人类大脑,但在实现上有很大不同,未来人工智能必然是端侧+边缘侧+远端相互协调,端侧和边缘侧可以做轻量级的推理,而云端做训练和重量级的推理。

再以我们熟悉游戏为例,随着5G的到来,云游戏会成为未来趋势。这是我参加最近的紫光展锐峰会时阿里巴巴的分享,阿里巴巴认为未来是云游戏时代,而云游戏时代的硬件架构虽以X86和ARM处理器为主,服务器GPU是影响云游戏的关键,视频编解码和压缩技术也是影响云游戏的体验的关键,这些都是和数据处理有关的。

【原创】英特尔花了5年布了一个大局

【原创】英特尔花了5年布了一个大局

但是 ,阿里巴巴认为未来端侧CPU将变得不那么重要!

因为很多处理将在云端进行!其实何止游戏,未来的很多数据处理都会在云端处理 ,而端侧可能是数据的一个入口而已。

所以,还在为苹果M1高潮的人是不是可以先不要那么嗨?因为,一个新的时代开启了,原来你看中的东西可能在新时代不合时宜。

就如同二战初期列强所推崇的战列舰,一味追求火炮口径,以超强的火力称霸,日本就造出了当时全球最大口径火炮的大和号,但是这个最大口径火炮的战列舰最后被航空母舰舰载机给炸沉了。

【原创】英特尔花了5年布了一个大局

所以,面对未来趋势,要用新的架构和理念去应对。

未来数据和云时代,我们更需要能在服务器端对海量数据提供快速处理器的平台。

有人会说那我喜欢单机版游戏,我就需要端侧的高性能处理。

是的,这就跟怀念像素级街机游戏的人一样,这样的需求总归是小众,已经不是时代主流,未来的主流游戏必然是云化,VR化,AR化。

这样的趋势不是英特尔一家看到,其他厂商也看到了,我们再看看今年的两个重量级收购:NV收购ARM和AMD收购赛灵思,其实都是冲着这个趋势去的。

不过,他们做的事情其实英特尔5年前就已经做了。

而且,英特尔的局更大。

不过要实现这个目标需要解决两个至关重要的挑战。

3、异构

和以往不同,现在我们面临的数据量大,而且种类繁多-这些数据有来源于不同的计算架构,它们有标量数据(CPU)、矢量数据(VPU)、矩阵数据(人工智能计算数据),空间数据(FPGA)等,要处理这些数据必须从软硬件两个方面下手。

硬件方面,这样的趋势催生了异构处理器的概念,就是把不同的处理器封装在一起。对于异构的理解可以看看这个视频。

但是要把不同处理器封装在一起,必须解决散热、总线连接等问题,否则这样的封装就是失败的。为了解决异构挑战,必须重点突破封装技术,所以英特尔把了封装技术列入六大技术支柱之一,英特尔的一位院士告诉我在以数据为中心的时代,先进封装将比过去发挥更重大的作用。   

【原创】英特尔花了5年布了一个大局

他说先进的封装技术能够集成多种制程工艺的计算引擎,实现类似于单晶片的性能,这些技术将大大提高产品级性能和功效,缩小面积,同时对系统架构进行全面改造。封装不仅仅是制造过程的最后一步,它正在成为产品创新的催化剂。

【原创】英特尔花了5年布了一个大局

在2019年在七月初的SEMICON West大会上,英特尔推出了一系列全新基础工具,包括将EMIB和Foveros技术相结合的创新应用(Co-EMIB),全方位互连(ODI)技术,和全新裸片间接口(MDIO)技术。通过多芯片封装(MCP)实现低延时、高互连速度,高性能的系统,它带来的好处有以下几点:1、尺寸缩小,可以将原来4000平方毫米的板级设计缩小到700平方毫米!

【原创】英特尔花了5年布了一个大局

2、实现超薄封装、未来更有希望实现无核,嵌入式的桥接。

【原创】英特尔花了5年布了一个大局

3、实现高速信号互连,目前已达到112Gbps,正努力迈向224Gbps。同时,通过电介质材料发明和金属表面粗糙度降低损耗。

【原创】英特尔花了5年布了一个大局

4、通过2D、3D封装实现高宽带互连,3D互连指的就是两个裸片叠在一起,2D互连指的是两个裸片进行水平的连接。

【原创】英特尔花了5年布了一个大局

如果对比英特尔和台积电的高级封装技术,你会发现,在相同功率密度下,英特尔的MDIO在带宽密度上更高效,另外,英特尔还把异构从单纯的处理器引申到系统概念,也为未来的数据处理打下了基础。关于英特尔在封装上的详细技术细节大家可以看《英特尔发现一个大趋势,其他厂商会跟进吗?》这篇文章。

异构问题解决以后,针对未来各种数据处理,还需要解决一个最大挑战--这就是软件平台,如何构造一个支持多种处理架构的跨平台的软件平台?

为此,英特尔做了两件事情:

一、开发自己的独立显卡--Xe 架构GPU 

【原创】英特尔花了5年布了一个大局

很多人认为,英特尔开发独立显卡是为了对抗NV和AMD ,其实,这只是为了补齐自己的短板--因为英特尔考虑未来要处理的是来自CPU、GPU 、AI加速引擎以及FPGA的数据,尤其是GPU在未来的数据处理中要扮演重要的角色,所以英特尔虽然有集成显卡,但还是推出了全新架构的GPU。英特尔将这些数据处理器架构统称为XPUs。

【原创】英特尔花了5年布了一个大局

“20年前,用于数据中心的GPU还不存在,XPU战略的提出,在于我们意识到需要有不同类型的架构来服务于各种不同的工作负载。其中一些工作负载在本质上是标量的,另一些是向量、矩阵、空间等等。对应CPU、GPU、FPGA和其他的加速器,我们把这些都统称为XPU。”英特尔VP Jeff McVeigh在接受电子创新网等媒体采访时指出,“我们的策略是将这些硬件类型、这些架构推向市场,然后将它们与oneAPI提供的通用编程结合起来,这就是XPU战略的基础。”

【原创】英特尔花了5年布了一个大局

英特尔Xe GPU架构用一句话概括就是--一种架构通杀四方、适应AI、云时代!对于Xe GPU架构,官方的定义是“并行矢量矩阵架构”,已经突出了这个架构的特点,那就是高度并行,适合扩展多种场景。Xe GPU架构有三大重点——软件第一、并行第二,同时适应全新的工作负载,比如AI、视觉云计算等等,这也是Intel作为GPU后来的一个优势,研发GPU架构的时候可以不用照顾太多之前的积累,直接面向未来潜力巨大的场景,比如AI、云计算等等。

【原创】英特尔花了5年布了一个大局

Xe架构GPU扩展为四大级别,Xe_LP、Xe_HP、Xe_HPG和Xe_HPC,新增的HPG面向发烧级游戏玩家,同时还支持硬件级实时光线追踪加速,顺便和NVIDIA、AMD的主流高端显卡拼个“刺刀见红”。

【原创】英特尔花了5年布了一个大局

Xe_HP的封装规模有1Tile、2Tile和4Tile三种,其中1Tile集成512组EU单元,每个EU为8核,所以总计4096核心,以此类推,4Tile就是16384核,核心频率可以达到1.3GHz。

Intel实验室给出的测试成绩显示,4Tile的FP32(单精度)浮点性能居然达到了42TFLOPS,号称目前单芯片全球第一。相较于1Tile的10588GFLOPS,放大比是3.993:1,比传统意义上的双芯显卡、多卡互联比起来,效率简直夸张。

另外,双十一苹果发布的MI号称有超强的GPU 其实对比的不是这款GPU而是英特尔的集成显卡。

【原创】英特尔花了5年布了一个大局

关于英特尔11日发布的全新服务器GPU:它是首款面向数据中心的独显产品,英特尔服务器GPU采用英特尔能效最高的图形架构——英特尔Xe-LP微架构,拥有低功耗、独立片上系统设计,并配备128比特管道和8GB专用板载低功耗DDR4显存。 

通过将英特尔服务器GPU和英特尔® 至强® 可扩展处理器强强联合,服务提供商可在不改变服务器数量的情况下,单独扩展显卡容量,以在每个系统上支持更多流和订阅用户,并同时实现较低的总体拥有成本(TCO)。

【原创】英特尔花了5年布了一个大局

通过新华三XG310 X16 PCIe3.0 GPU扩展卡——在3/4长、全高尺寸内封装四颗英特尔服务器GPU芯片,即可在一个典型双卡系统中支持超过100个安卓云游戏并发用户。这一数量最高可扩展至160个并发用户,实际数量取决于具体的游戏和服务器配置。

开发人员可利用目前Media SDK中的通用API,这一API也将于明年迁移到oneAPI视频处理库当中。目前,英特尔正在与包括Gamestream、腾讯和Ubitus在内的诸多软件和服务合作伙伴合作,共同将英特尔服务器GPU推向市场。

jeff认为服务器GPU的一个重要应用就是Android云游戏,它在游戏开发生态系统中占据了74%的全球市场份额,未来有很大增长空间。“其另一个市场,是高密度的媒体转码和媒体编码,例如有人拍了很多流行舞蹈的视频,然后把它们上传到网上,这些视频像病毒一样传播开来,然后就有数百万人想要做同样的事,这就是我们所说的高密度媒体转码,所以服务器GPU主要关注这两类用例(云游戏和流媒体服务器)”他举例说,这个也是和阿里巴巴对GPU的未来需求分析一致。

【原创】英特尔花了5年布了一个大局

其实这款GPU已经为云游戏助力了,腾讯先游云游戏助理总经理方亮表示:“英特尔至强可扩展处理器和英特尔服务器GPU,打造了一个高密度、低时延、低功耗、低TCO的解决方案,让我们能够在每台双卡服务器上生成超过100个游戏实例,诸如《王者荣耀》、《传说对决》。” 

基于Xe-LP微架构的英特尔服务器GPU目前正在发货。与近期推出的英特尔®锐炬® Xe MAX独显一道,该GPU将随着英特尔Xe架构产品和软件计划的不断深入发展进一步为全球用户提升视觉计算体验。 

二、oneAPI实现软件“大一统”

【原创】英特尔花了5年布了一个大局

在我2019年采访Raja Koduri时,他表示oneAPI旨在提供一个统一的编程模型,以简化跨不同计算架构的应用程序开发工作,这些计算架构就是前面提到的标量处理器(CPU)、矢量处理器(GPU)、矩阵处理器(AI引擎)和空间处理器(FPGA),它们经常被缩写为SVMS,他表示英特尔的目标是将oneAPI打造成一个可跨多硬件架构开发的统一软件平台。

目前市场还未出现一种这样的平台,所以由oneAPI带来的软件“大一统”,可以堪称是英特尔开创浩荡PC时代之后的又一个传奇。

4、oneAPI

oneAPI愿景很美好,但是要实现挑战极大。

从实际开发应用中看,针对不同的计算架构平台都需要进行单独的软件投资,这些软件投资涉及到了跨平台的语言和库,语言的库的复杂性往往会导致产品开发周期变长。因此,英特尔oneAPI所要解决的就是在XPU与中间件/框架之间的语言和库不统一的问题。

在oneAPI项目当中,英特尔推出了一种基于标准的跨架构语言Data Parallel C++(DPC++)。据悉,DPC++支持不同硬件目标的代码复用,是面向特定加速器的自定义调试的跨行业开放式解决方案,也是代替单一架构的专用语言。但DPC++却并不是一种全新的开发语言。据了解,DPC++以C++为基础,融合了Kronos Group的SYCL,可支持数据并行性和异构编程,并包含在一个开放社区流程中开发的语言扩展。

【原创】英特尔花了5年布了一个大局

C++对于软件开发者来说并不陌生,DPC++所融合的SYCL又是什么?SYCL是一个免版税的跨平台抽象层,基于OpenCL的基本概念,可移植性和效率,使得异构处理器的代码可以使用完全标准的“单一来源”风格编写C++。

SYCL支持单一源代码开发,其中C++模板函数可以包含主机代码和设备代码,以构建使用OpenCL加速的复杂算法,然后在不同类型数据的源代码中重复使用它们。以此来看,DPC++并不是一件全新的语言,这对于软件开发者来说,非常容易切入到oneAPI的项目中去。而为了更易于软件开发者的使用,英特尔在oneAPI beta版本中还插入了compatibility tool,通过此工具可以将之前的语言轻松转换成DPC++。

另一方面,在oneAPI当中,英特尔还融合了多种库,旨在加速以行业领域为中心的主要功能,包含了数学库、ML通信库、视频处理库等。受到人工智能趋势的影响,oneAPI中也包含了可面向所有开发人员的AI基础套件。此外,英特尔还提供了优化的AI框架包,包含了TensorFlow、PyTorch等AI框架的工具套件。这些库和框架都可以支持CPU、GPU、FPGA等多种计算架构。

所以,从语言到库的构成上,不难看出oneAPI正在对跨架构平台的软件进行整合,以实现统一。

通过英特尔oneAPI工具包,开发者能够使用一种通用、开放且基于行业标准的编程模型访问英特尔XPU。这不仅能够释放底层硬件的性能潜力,同时能降低软件开发和维护成本,并且在部署加速计算方面,英特尔® oneAPI工具包较在专用的、受限于特定厂商的方案风险更低。

此外,英特尔oneAPI工具包充分利用了先进的硬件性能和指令,如用于CPU的英特尔®AVX-512(高级矢量扩展)和英特尔®深度学习加速(英特尔® DL Boost),以及XPU独有的功能。

不过,这还不够,更重要的是

生态

要让一个新的架构被产业接受,必须有强大的生态系统做后盾。

关于未来oneAPI生态的构建,英特尔相关人士表示,公司将不仅继续与上下游合作伙伴之间展开合作,也会将oneAPI纳入到与高校的合作当中。在英特尔看来,目前,众多高校已经开设了C++相关课程,oneAPI中的专用开发语言以C++为基础,适合相关专业的学生的继续学习和发展。其次,现在产教之间的融合越来越紧密,许多高校已经开展了异构方面的研究,oneAPI会帮助他们更快地从理论过渡到实践。

另外,oneAPI也已经得到了业界的支持,近期微软Azure和谷歌的TensorFlow已经宣布支持oneAPI;众多领先的研究机构、公司和大学也支持oneAPI。

【原创】英特尔花了5年布了一个大局

除此之外,伊利诺伊大学香槟分校的贝克曼高级科学技术研究所还宣布将建立一个新的oneAPI卓越中心(CoE)。他们正在使用oneAPI编程模型将生命科学应用程序NAMD扩展到其他计算环境。NAMD能够模拟大型生物分子系统,正在帮助解决诸如COVID-19这样的全球性挑战。这个卓越中心将和研究GROMACS的斯德哥尔摩大学(SERC)卓越中心,以及海德堡大学(URZ)卓越中心一道,共同研究如何为其它厂商的GPU提供oneAPI支持。

【原创】英特尔花了5年布了一个大局

Raja表示oneAPI不仅支持英特尔的硬件产品,也将支持其他第三方产品,所以这并不是一个私有的平台,而是一个面向产业开放的平台,“oneAPI零级别(Level Zero)是开源的。它不仅是为了英特尔异构的XPU,它也是一个直接的接口,让人们可以充分释放硬件的每一份性能。开发者可以通过特定的编程来实现最出色的性能。这是Level Zero的目的。”他指出,“从整个系统上看,在所有XPUs上实现的Level Zero的都是通用的。”

30年前,英特尔通过打造PC产业标准平台开创了PC时代,在数据时代,提倡“软件先行”的英特尔看到了软件的重要性,打造了oneAPI,这个跨平台的软件平台未来可以支持更多的硬件开发,必然会吸引更多的伙伴加入进来,共同掘金数据时代。

一个浩浩荡荡的新时代就要开启了,十年后,我们看看谁是真正的王者!

最后,一图回顾下英特尔五年来的技术发展之路

【原创】英特尔花了5年布了一个大局

注:本文为原创文章,转载请注明作者及来源

相关文章

Digi-Key