
作者:电子创新网张国斌
近一年来,随着人工智能技术的快速发展,边缘AI市场迎来了爆发式快速增长,数据显示,2024年全球边缘AI市场价值约为125亿美元,预计从2025年至2034年,该市场将以24.8%的复合年增长率(CAGR)增长,预计到2032年该市场将增长至1436亿美元。
物联网设备的普及、5G技术的推动以及技术融合、行业应用深化、算力提升与成本降低、政策支持等因素共同推动了边缘AI的发展。
数据显示从2019年到2024年,在相同成本、相同大小和相同功耗的条件下,边缘AI的算力已经增长了142倍!这种算力的快速提升使得边缘AI能够运行更复杂的模型,例如大语言模型等,未来,边缘AI将在智能制造、智慧城市、智能医疗等领域发挥更大的价值,其对算力的需求也将持续提升!
随着越来越多边缘AI场景被打开,如何在功耗受限的环境下实现高效AI推理,成为芯片架构创新的关键,那什么样的算力处理器更适合边缘AI领域呢?
5月8日,Imagination Technologies隆重推出 Imagination E-Series GPU IP,重新定义了边缘人工智能和图形系统设计。E系列凭借其高效的并行处理架构,在提供卓越图形性能的同时,针对人工智能工作负载,其 INT8/FP8 算力可在 2 到 200 TOPS 之间扩展。它为未来的边缘应用提供了一种通用且可编程的解决方案,涵盖图形渲染、桌面应用、智能手机上的自然语言处理、工业计算机视觉以及自动驾驶等领域。
“E系列GPU是Imagination针对边缘AI推出的划时代产品,它是兼具高效和灵活性AI与图形综合的解决方案,当我们在谈AI 推理的时候,其实会对应几种不同应用领域,一种是云端AI 推理。还有一种是边缘侧推理,那这两种推理针对的需求是不一样的,云端AI 推理它更倾向于大型推理,其模型也更复杂,但它对于响应速度没有那么高。”他指出,“这是在一定的范围内可以接受的一种 AI 推理,但有一些场景是在边缘侧,这时候面临一些数据不能上云端的问题如一些安全数据或者企业的数据,或者人体健康数据、辅助驾驶数据等,这时候需要实时响应,这种情况下我们就不能够完全基于云端AI 网络来进行推理,这就需要有一个边缘侧的 AI 技术来响应,提供一种更高效、更灵活的这种解决方案。”
实际上,边缘侧 AI 需求正在不断扩展,如智能驾驶已经多模融合,开始对道路、行人,周边环境进行综合安全理解,还有智能人形机器人也需要对环境进行感知和认知,然后再做出一些反应。
具身智能机器人是人工智能与机器人技术的深度融合,通过多模态感知、自主决策和动态交互,能够在复杂环境中实现智能行为。它在工业、医疗、服务、特种和教育等领域具有广泛的应用前景。尽管面临成本、标准、伦理等挑战,但在政策支持和市场需求的推动下,具身智能机器人有望在未来几年实现快速突破和规模化应用。
另外手机或者消费类设备也需要引入调优蒸馏过的大模型,对日常输入的图片、文字做理解并输出,工厂的IOT设备也需要欧自检和判断。
“可以说,在边缘侧进行AI图里部署,这个量是非常非常多。而且在这些模型当中,其实也在不断演进,就是说模型 的AI 算法也没有停止,可以看到这几年从最初的感知性卷积类AI 网络,发展到后面语义理解,然后在深度网络以及在transform架构,到现在这种更加复杂的图生视频,文字生视频等算法,其实推理算法还在不断演进。”艾克指出,“另外我们可以看到这种 AI 虽然它在不断地演进,而且总量也越来越多,但总体来说有一个情况是不变,就它还是在解决并行性问题,它是一种并行任务,这种并行任务使我们在做硬件设计的时候,要做深度思考,因为并不是每一种处理器都特别适合于这种并行的问题。”
他对CPU、NPU以及GPU做推理的优缺点做了深度分析,他指出CPU 擅长处理器串行问题或者分支问题,它提供了很多灵活性的编程来响应各同不同分支,不同顺序的处理,然后并行去优化它,但CPU 显然并不擅长端侧需要的并行计算!此外在算力密度上也是落后,所以业界发出了NPU,NPU 是针对于AI专门开发的加速器,它有突出的AI性能,算力密度也很高,但NPU还是面临一些问题,因为 AI 网络在不断发展,所以它对于新网络,其灵活性欠缺。
“因为 NPU 是固化的,这时候灵活性就不能表现出来。另外因为它是固化的,所以有些这种网络或者算子,它的利用率就不是那么高,此外它的扩扩展也比较麻烦,你不能通过堆叠NPU获得很高算力,所以 NPU 虽然做 有突出性能但是在灵活性以及扩展性方面不足。”他指出,“再看GPU,通用GPU,擅长并行计算,虽然它在 AI 性能以及算力密度上,功耗上可能不如 NPU 那么好,但是它的灵活性就很好,因为它是可编程的,能响应算子的要求,它在调整过程中可以针对不同算子来充分利用这个利用率。所以综合来看, GPU在响应 AI 需求方面其综合性比较突出的。”
E系列GPU深度解析
据Imagination中国区技术总监艾克介绍,此次发布的E-Series 的两项核心创新为其重塑端侧系统设计奠定了基础:
Neural Cores(神经核):最高可扩展至 200 TOPS(INT8/FP8),显著提升 AI 与计算性能。
Burst Processors(爆发式处理器):极富创新的架构设计使边缘应用中平均功耗效率提升35%。
据他介绍,E-Series延续了Imagination GPU 一贯强大的图形处理能力,包括对光线追踪的支持。在此基础上,每个 GPU 核深度集成低精度、高能效 AI 加速能力,构建出计算密度极高的 E-Series 神经核,其性能可扩展至200 TOPS INT8 ,AI 性能较前代D系列( D-Series )提升高达 400%。神经核支持多种主流 AI 数值格式,满足不同精度、性能与功耗需求。其中,AI 友好的内存架构尤为突出,这种架构在计算时优先使用本地内存,大幅降低了访问外部内存所消耗的功耗和性能成本。
关于这次E-Series GPU独有的爆发式处理器,Imagination产品管理副总裁Kristof解释说这个爆发处理器它是非常深度地集成在 GPU 当中的一个处理单元,这种深度集成的方式改变了原来 GPU 指令调度方式。所以总体上在执行各项计算任务时,延迟是不会受到影响的。它能够让我们E系列的延迟在跟那些 NPU 处理单元进行对比时,处于非常有竞争力的状态。真正会对于延迟有关键的改善是我们E系列的处理流水线,我们现在对整个流水线级数做了很大程度缩减,这就意味着我们可以更便于去获得一个更高效利用率,使得我们可以大量重复利用本地的数据,这也给功率效率提升带来了非常大的帮助。
“我们的爆发处理器能够对某些指令进行调度,所以并不会去牺牲很多的延迟,并使设计可以去获得一个最好的功效。”他强调,“NPU解决方案跟我们全新E系列 GPU 解决方案之间一个非常重要区别就在于NPU 本身的设计目标就是为了支持一个特定数量的 AI 应用,那一旦出现了新的 AI 应用,而且是这个 NPU 在设计的时候没有去针对的应用,那这个 NPU 就处理不了,这个时候这项任务就不得不交回给 CPU 去处理,那么 在CPU 去处理这个交回来的任务的过程中,就会产生非常大的延迟,于性能的影响也是巨大的。所以,相比而言,我们的 GPU 处理方案有一个非常大的优势,就是我们是把 AI 计算整合到了管线当中,也就是说在 AI 加速这一块,我们在管线里有一个可编程的处理引擎。这种可编程性相当重要,也就是说从原则上讲我们的 GPU不会存在某个AI 任务处理不了,而不得不交给其他的处理单元去兜底的情况。而且更关键的是对于所有的 AI 网络,不管是现在世界上已经存在的AI网络,还是未来将会出现的全新AI网络,都可以通过这种利用可编程的 GPU 引擎方式在管线内去进行 AI 计算处理。我想这个就是目前 NPU 的这种解决方案所面临的最大的一个挑战。”
他举例说, 5 ~ 7 年之前, NPU 设计出来是为了去解决卷积神经网络(CNN)的问题,但现在大家都在使用 Transformer 大模型了。那五年以后,我们也不知道会出现什么样的新 AI模型,那 NPU 在这个过程中没有办法预知未来模型,Imagination也没有办法预测,但是Imagination的 GPU 具有很高的可编程性,可以去应对新AI 处理模型,它可以以几乎没有延迟的方式去应对未来的这些 AI 模型。这就是 NPU 和 GPU 两种不同模式之间的最大区别。
艾克指出,与传统“独立GPU + NPU”方案不同,E系列GPU将AI加速单元与主GPU执行管线(USC)深度耦合,关键特性包括:
共享寄存器和本地缓存,避免数据多次搬运,降低功耗;
统一调度与执行路径,减少延迟,提升利用率;
支持FP32、BF16、INT8、FP8等多格式混合计算,兼顾灵活性与性能;
Burst并发执行架构,可自动将相邻指令分组并局部执行,提升功耗效率达35%。
高效计算密度与扩展能力
单核算力高达2.3 TFLOPS(FP32),可扩展至4核、13TFLOPS;
INT8推理能力最高可达200 TOPS;
从轻量智能设备(2 TOPS)到自动驾驶(200 TOPS)全覆盖;
支持虚拟化与多任务调度(最多16个虚拟机)适应复杂边缘系统需求。
下表列出了NPU与传统GPU的核心优势
项目 | E系列GPU | 传统GPU | NPU |
---|---|---|---|
AI灵活性 | 高,支持未来网络与算子 | 中,需改进调度 | 低,固化算子支持有限 |
软件生态 | 完整支持OpenCL/Vulkan/TVM | 中等 | 较差,需定制开发 |
可扩展性 | 高,从2T~200T全覆盖 | 中等 | 受限 |
功耗效率 | 高(Burst架构) | 中等 | 高(特定场景) |
数据共享 | 高(GPU管线共享) | 中 | 低 |
多模态融合 | 优(单芯片异步并行) | 可支持 | 支持有限 |
软件栈与生态兼容性
一款好的AI处理器除了有强大能效比和灵活性外,软件工具和生态系统也是应用关键,对此Kristof,在生态系统和开发工具上,Imagination采取的策略确实就是去支持市面上已被广泛使用的接口和工具,Imagination支持这些行业标准的工具和 API ,如Vulkan、OpenCL、 TFLite和TensorRT等等。除此以外,Imagination也花了很多的时间去在更底层上确保认这些不同的 AI工具和接口与Imagination的硬件可以形成一种非常好的经过优化的配合流程,所以Imagination也投入了大量的时间和工程资源在这些标准接口的更底层上去进行很多的优化,来确保第三方的工具也可以跟Imagination的硬件配合得很好。
“还有补充两点,一个就是针对大家经常用到的最常见功能,我们专门提供了一些专用的计算库,如用于通用计算的计算库imgBLAS、用于傅里叶变换加速库imgFFT、用于神经网络计算的imgNN,同时我们也提供标准的接口。另外也要重复一下刚才所讲到的,就是在 GPU 上可编程地开发AI 模型还有另一项优势,因为在行业内知道如何去为 GPU 进行编程的人才的数量是非常之多,大家都明白怎么去用GPU,这对于整个 GPU 相关的 AI 生态系统来说是一个巨大的优势;因为相比较而言,定制的NPU则面临编程人才和生态系统都相对来短缺,这是因为其没有一个标准的编程接口。”他强调。
艾克列举了E-Series GPU几个典型应用场景,一个是AI PC与消费级终端,可以实现单芯片同时承担图形渲染与AI推理,如视频增强、语义识别、图像生成;一个智能座舱与自动驾驶场景,可以一个GPU可以实现座舱图形、仪表渲染与AI推理(驾驶员监测、语音交互)的统一;还有就是工业与智能制造场景,可以低功耗部署AI模型进行实时检测、路径规划、预测性维护等,针对轻量级边缘设备场景,如智能门锁、智能音箱、AR眼镜,依托E系列可以实现低成本、低功耗AI体验。
综上所述 ,Imagination E系列GPU放在图形与边缘 AI 系统的核心位置,打破了传统图形与AI计算的边界,以低功耗、高算力、强灵活性的统一架构,为边缘AI带来了真正可扩展、易部署的高效平台。相较NPU或传统GPU,E系列提供了一个更贴近未来多变AI算法趋势、更易于SoC集成、更具软件生态优势的解决方案。
首款 E-Series GPU IP 将于 2025 年秋季正式上市,目前已完成授权。汽车、消费电子、桌面及移动版本亦在同步开发中。
可以说,在边缘智能新时代,Imagination的E系列GPU开拓出一条新路线!据传一些厂商已经将其用于新品开发,不久的将来,我们就能看到基于Imagination的E系列GPU的边缘AI产品!
注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利