
作者:电子创新网张国斌
据悉,华为将于8月12日在2025金融AI推理应用落地与发展论坛上,发布AI推理领域的突破性技术成果。据透露,这项成果或能降低中国AI推理对HBM(高带宽内存)技术的依赖,提升国内AI大模型推理性能,完善中国AI推理生态的关键部分。
通过技术创新,提升国内AI大模型的推理性能,使其在实际应用中更加高效。这一成果将填补中国AI推理生态的关键部分,推动整个AI产业的发展。
HBM(高带宽内存)是一种高性能的3D堆叠DRAM技术,广泛应用于AI推理和训练场景,但其成本较高且供应受限。通过减少对HBM的依赖,华为可以降低AI推理系统的成本,提高系统的可扩展性和经济性,使更多企业能够负担得起高性能的AI推理解决方案。
随着今年DeepSeek来源,大大降低了大模型在端侧落地的门槛,如一些白家电都开始将满血或者蒸馏的大模型落地,要支持蒸馏的大模型落地就需要性能更好的支持推理的算力处理器,因为推理性能直接影响到应用的响应速度和用户体验。可以说,当前推理性能的提升是AI应用落地的关键瓶颈之一,英伟达迫切地希望其H20在中国销售,也是因为H20推理性能出众,有刚需。
AI推理需频繁调用海量模型参数(如千亿级权重)和实时输入数据,HBM的高带宽和大容量允许GPU直接访问完整模型,可避免传统DDR内存因带宽不足导致的算力闲置。对于千亿参数以上的大模型,HBM可显著提升响应速度。当下,HBM已成为高端AI芯片的标配,训练侧渗透率接近100%,推理侧随模型复杂化加速普及。
由于HBM对AI至关重要,因此,美国也特别加强HBM对华销售,根据2024年12月2日发布的新规,美国禁止向中国出口HBM2E(第二代HBM的增强版)及以上级别的HBM芯片。不仅美国本土生产的HBM芯片受到限制,任何在海外生产但使用了美国技术的HBM芯片也受到出口管制。该禁令于2025年1月2日正式生效。
全球主要的HBM芯片制造商,包括美光(Micron)、三星(Samsung)和SK海力士(SK Hynix),都受到这一政策的影响。该禁令限制了中国获取高性能HBM芯片的能力,可能对中国的AI产业和高性能计算领域的发展造成一定阻碍。
目前,中国企业和科研机构正在加速HBM技术的自主研发,以减少对进口芯片的依赖并取得了一定的成就。
在这样的大背景下,华为的新成果有望显著提升AI大模型的推理性能,使其能够更高效地处理复杂的推理任务,从而推动AI在金融、医疗、交通等领域的广泛应用。华为的这一成果将填补中国AI推理生态的关键部分,提升整个生态的竞争力,促进AI技术的产业化和商业化。
实际上,华为一直在努力通过技术创新实现算力的突破,2025年4月10日华为在安徽芜湖举办的华为云生态大会2025上正式发布了CloudMatrix 384超节点集群,并宣布已在华为云芜湖数据中心实现规模上线。在2025世界人工智能大会(WAIC)上,华为首次线下展出了昇腾384超节点(即Atlas 900 A3 SuperPoD)。
华为推出的CloudMatrix384超节点集群,通过“全对等架构+软硬协同”的模式,打破了传统上算力、延迟和成本之间的“不可能三角”。该超节点集群实现了392GB/s的卡间带宽,让384张NPU能够高效协同工作,显著提升了推理效率。
CloudMatrix384 采用 全对等互联总线(UB 网络) 技术,基于 Clos 架构实现 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 的无阻塞高速互联。通过定制化光通信模块,单卡间单向带宽达 392GB/s(约为传统 RoCE 网络的 15 倍),传输延迟从 10 微秒降至 1 微秒以内。这种架构突破了传统集群的 “南北向带宽瓶颈”,实现数据在芯片间的直接传输,尤其适合 MoE 模型中高频 token 分发场景,通信效率提升 70% 以上。数据显示,CloudMatrix 384可提供高达300 PFLOPs的BF16算力,接近英伟达GB200 NVL72系统的两倍。单卡推理吞吐量从每秒600 Token跃升至2300 Token,提升近4倍。
这一次,华为又将发布什么突破性技术?我们拭目以待!
注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利