【原创】商汤宣布与华为昇腾打通关键适配：推动更多厂商用国产算力

winniewei -- 周一, 09/08/2025 - 09:59

作者：电子创新网张国斌

近日国内大厂商汤宣布，与华为昇腾打通关键适配，以此推动更多厂商来用国产算力。商汤大装置SenseCore与昇腾384超节点率先完成全面适配，这是国产AI算力领域的重要进展。

此次关键适配，在功能、性能验证上均达到预期目标，为大模型高效训练与推理供了坚实支撑，加速国产AI算力从“可用”迈向“好用”。可让多租户、大规模、弹性AI云服务成为可能，能够更好地满足不同用户、不同规模的AI计算需求。

超节点是一种通过高速互联技术，将多个GPU/NPU整合为统一计算单元的新型架构，能有效解决AI大模型训练中的算力协同与通信效率问题。

1 (1).png

昇腾384超节点（Atlas 900 A3 SuperPoD）是华为推出的一款高性能计算集群，它打破传统以CPU为中心的冯诺依曼架构，创新提出对等计算架构，将总线从服务器内部扩展到整机柜、甚至跨机柜，使384个NPU和192个CPU能够形成一个紧密耦合的逻辑节点，拥有全局可寻址的计算和内存能力，实现统一的资源池化和高效的工作负载编排。

通过高速互联总线实现384个NPU之间的大带宽低时延互联，带宽提升15倍，单跳通信时延缩短至200纳秒，较传统架构降低了10倍，解决了集群内计算、存储等各资源之间的通信瓶颈。

单集群BF16算力达300 PFLOPs，接近英伟达GB200NVL72系统的两倍。在LLaMA3等千亿稠密模型的性能测试中，相比传统集群提升2.5倍以上；在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上，性能提升可达3倍以上。

此外，华为首创的EMS弹性内存存储通过池化技术将显存与算力解绑，总内存容量达英伟达方案的3.6倍，带宽达2.1倍，使首Token时延最高降幅达80%，资源利用率提升30%以上，尤其适合参数规模超万亿的MoE模型。

依托昇腾云脑运维体系，可实现“1分钟感知、3分钟定界、10分钟恢复”的故障处理能力，硬件故障感知率从40%提升至90%，覆盖95%常见故障场景。在贵安数据中心的实测中，大模型训练作业可稳定运行40天，断点恢复时间控制在10秒内。

它可支持千亿参数大模型的训练与推理，如LLaMA3、Qwen、DeepSeek等，能够大幅提升模型训练效率，降低训练成本，为人工智能领域的研究和应用提供强大的算力支持。可满足智能体在复杂环境下的实时决策和交互需求，加速智能体技术的发展和应用落地，推动人工智能在机器人、自动驾驶、游戏等领域的发展。

2 (1).png

作为AI云原生平台，商汤大装置SenseCore致力于为用户提供敏捷、灵活、可靠的全栈AI基础设施服务，以极致性价比推动大模型技术的高效落地与规模化应用。在调度能力上，除了支持POD内单机和多机调度、跨POD多机调度、亲和性调度等基础能力，SenseCore平台配合模型并行策略实现了逻辑超节点自动划分，使EP/TP等大通信策略可以充分利用灵衢网络，提升模型训练效率。

SenseCore团队提交了多个MR修复多POD场景下master/work任务rank乱序问题，从根本上解决了跨POD训练任务概率性失败的问题。在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE网络到任务、进程软硬件多维度检测，结合检测能力实现Job/Pod/进程多级恢复机制，全面提升昇腾384超节点在训练场景下的可靠性与容错性。

未来展望，双方还将探索更多应用场景，包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等，进一步加速基于SenseCore的昇腾384超节点在各行各业的应用落地。

商汤科技大装置事业群CTO宣善明表示，SenseCore成为首批完成昇腾384超节点适配的AI云平台，是国产AI基础设施融合发展的重要里程碑。SenseCore通过与昇腾的深度融合，充分释放昇腾算力潜能，为产业界提供更加敏捷、智能、可靠的算力底座，商汤也将在此基础上打造面向各行业的AI解决方案，共同推动千行百业的智能化升级。

注：本文为原创文章，未经作者授权严禁转载或部分摘录切割使用，否则我们将保留侵权追诉的权利

登录或注册后发表评论