华为384颗自研芯片算力集群方案领先英伟达AMD一代?

作者:电子创新网张国斌

近日华为推出了AI算力集群解决方案CloudMatrix 384,它基于384颗昇腾芯片构建,通过全互连拓扑架构实现芯片间高效协同,可提供高达300 PFLOPs的密集BF16算力,接近达到英伟达GB200 NVL72系统的两倍。

此外,CM384在内存容量和带宽方面同样占据优势,总内存容量超出英伟达方案3.6倍,内存带宽也达到2.1倍,为大规模AI训练和推理提供了更高效的硬件支持。

尽管单颗昇腾芯片性能约为英伟达Blackwell架构GPU的三分之一,但华为通过规模化系统设计,成功实现整体算力跃升,并在超大规模模型训练、实时推理等场景中展现更强竞争力。按照国外投行的说法,华为的规模化解决方案“领先于英伟达和AMD目前市场上的产品一代”,并认为中国在AI基础设施上的突破将对全球AI产业格局产生深远影响。怪不得老黄总说华为是英伟达的最大对手。

1.png

来看看CloudMatrix 384有哪些出众的特性!

1. 高密设计

芯片集成度高:CloudMatrix 384由384颗昇腾910C芯片组成,单节点即可提供强大的算力支持,且可扩展至千卡级集群,满足大规模AI训练和推理的需求。资源池化与动态调度:通过资源池化技术,实现了算力和内存带宽的线性扩展,能够根据任务需求动态分配资源,提高资源利用率。

2. 高速互联

全互连拓扑架构:采用全互连拓扑架构,所有芯片之间都可以高效协同工作,避免了传统架构中的通信瓶颈。

光学互联技术:完全采用光学互联,取代了传统的铜缆连接。系统内使用了6912个800G LPO光收发器,总内部带宽超过5.5 Pbps(687.5 TB/s),显著提升了数据传输效率,同时降低了信号完整性损失。

高带宽与低延迟:节点内互联带宽高达1.2 Tbps,内存带宽提升至3.2 TB/s,远超行业同类产品,能够支持大规模并行计算和实时数据处理。

3. 高效能比

高性能芯片:昇腾910C芯片本身具备高算力密度,通过软硬件协同优化,CloudMatrix 384的算力密度较上一代提升了30%。

节能优化:尽管整体功耗较高(约559 kW),但通过系统级优化,单位功耗降低了20%,在大规模集群中仍具有一定的能效优势。

4. 强大的算力输出

高算力:单个CloudMatrix 384系统能够提供高达300 PFLOPs的BF16算力,接近英伟达GB200 NVL72系统的两倍,能够支持百亿级参数的大模型训练。

扩展性强:支持横向扩展,通过多POD互联可以形成超大规模集群,满足不同规模的AI计算需求。

5. 系统级优化

网络架构创新:采用自研的CloudEngine 16800交换机,结合信元喷洒技术,优化了数据分发效率,提升了整体系统的通信性能。

软件优化:通过AI全栈能力优化,实现了从硬件到软件的深度协同,进一步提升了系统的整体性能和稳定性。

多场景支持:适用于智慧城市、智慧金融、医疗健康等多个行业,能够支持从城市治理到实时推理的各种应用场景。

兼容性强:已适配160多个第三方模型,提供端到端的大模型训推一体化解决方案,具有良好的生态兼容性。

CloudMatrix 384已于2025年上半年在华为云芜湖数据中心规模上线,预计将有数万台部署上线,标志着其从实验室走向大规模商用的重要一步。(综合互联网报道编辑)

最新文章