拥抱基础设施变革,抓住人工智能的万亿美元机遇

随着人工智能重塑整个行业,支撑这场变革的技术基础也必须随之演进

众所周知,人工智能 (AI) 有望革新人类活动的方方面面。然而,要充分释放这一潜力,就必须面对一个基本事实:支撑传统计算的基础设施已无法满足未来 AI 发展的需求。

当前,产业已经见证了这场变革所呈现出的惊人规模:

  • 训练 ChatGPT-4 使用了超过 1PB 的数据——相当于两亿首歌曲连续播放长达 1,000 年。

  • OpenAI 每月为 10 亿活跃用户提供服务,每位用户消耗的数据量是传统应用的一万倍。

  • 到 2030 年,这场 AI 革命将带动超过一万亿美元的基础设施投资。

1.png

这一爆炸性增长正在推动数据中心的能耗从兆瓦级跃升至吉瓦级,由此带来的限制无法仅靠增加更多通用服务器来解决。整个行业必须从根本上重新思考计算基础设施的架构设计、构建方式和部署策略。那些能够成功驾驭这场转型的企业,将充分释放 AI 的潜力;而未能及时跟进的企业,则极有可能面临被市场淘汰的风险。

在近日于旧金山举办的第 62 设计自动化大会 (DAC) SKYTalk 演讲中,Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 分享了如何拥抱基础设施变革,抓住 AI 的万亿美元机遇的经验与洞察。

过往技术变革的经验启示

Awad 表示,应对如此巨大的技术变革其实已有“蓝图”可循。在过去的 30 年里,从移动计算到汽车变革,再到物联网部署,历次成功的技术革命都遵循着相似的发展路径。而那些最终脱颖而出成为领军者的企业,普遍具备以下三个共同特征:

  • 追求技术领先

  • 具备系统级思维

  • 培育强大的生态系统

这一发展模式为 AI 转型提供了重要借鉴。回顾移动革命,它不仅仅是处理器速度的提升,更涉及对能效优化、软件栈乃至制造合作伙伴关系的全面革新。同样,汽车行业向自动驾驶和电动化转型的过程中,也需要在芯片设计、系统架构以及生态协作等层面采取一体化的推进策略。

Awad 表示,“要让 AI 真正实现我们为其设定的宏伟目标,所需的其实还是同样的路径——技术领先、从底层开始设计的系统,以及强大的生态系统。”

基础设施演进的迫切性

数据中心的演进过程充分展现了行业快速适应 AI 需求的能力。2020 年之前,企业主要依赖通用服务器,并通过 PCI 插槽添加加速器。到了 2020 年,重点转向了具备 GPU 之间直连能力的集成服务器。2023 年,我们见证了 CPU GPU 的高度耦合集成。而如今,行业正向完整的“AI 工厂”迈进——从芯片层面开始,为特定负载场景打造整个服务器机柜。

领先的科技公司正在摒弃“一刀切”的通用架构思路。NVIDIA Vera Rubin AI 集群、亚马逊云科技 (AWS) AI UltraClusterGoogle Cloud TPU 机柜,以及微软的 Azure AI 机柜,都是针对自身独特需求而专门打造的定制化系统,而非通用解决方案。

Awad 解释道,“所有领先的超大规模云服务商都在做同样的事情。他们从芯片层开始构建高度集成的系统,根据自身的系统需求反向驱动芯片层的创新。”

这一转变反映出整个行业达成的广泛共识:AI 的计算需求必须依赖专为 AI 工作负载设计的基础设施,而非在通用系统基础上改造的解决方案。

经大规模验证的性能表现

AWS 报告称,过去两年新部署的 CPU 算力中,有超过 50% 来自其搭载 Arm 架构的 Graviton 处理器。此外,包括 Amazon RedshiftPrime DayGoogle 搜索和 Microsoft Teams 在内的关键工作负载,如今都运行在基于 Arm Neoverse 等先进技术构建的基础设施上,实现了显著的性能提升与能效优化。

Awad 进一步解释说,这些举措并非出于成本削减的考量,而是为了追求性能。企业打造定制芯片,并不是因为它成本更低,而是因为它能在特定数据中心环境下,实现通用解决方案所无法达到的性能与能效水平。

通过协作加速创新

打造定制芯片面临着诸多挑战,包括高昂的成本、复杂的设计以及漫长的开发周期。解决之道在于通过协作生态系统来降低门槛、加速创新。像 Arm CSS (Compute Subsystems) 此类的预集成的计算子系统、共享的设计资源以及经过验证的工具流程,都能显著缩短开发周期。

已有行业实例展现了生态协作的潜力。部分合作项目通过在设计中使用预配置、预验证的 CSS,使合作伙伴节省了 80 /年的工程师投入,将开发周期从数年缩短至数月。Awad 表示,其中一个项目从启动到制造出能够在 128 个核心上运行 Linux 的芯片,仅用了 13 个月——对于顶尖的芯片开发而言,这一速度堪称惊人。

正在兴起的芯粒 (Chiplet) 生态系统,代表了行业协作的又一重大突破。像 Arm 芯粒系统架构 (Arm Chiplet System Architecture, CSA) 这样的行业倡议正在定义通用接口与协议,诸多亚太地区的合作伙伴已经参与其中,共同开发标准化的计算模块,并可按需组合应用于不同场景,从而构建更加灵活且更具成本效益的开发路径。此外,通过 Arm 全面设计 (Arm Total Design) 等生态项目,这类协作框架将晶圆代工厂、设计服务商、IP 供应商以及固件合作伙伴紧密连接起来,以简化整个开发流程。

软硬件协同释放 AI 潜力

仅靠硬件创新无法真正释放 AI 的潜力。实现成功还需要强大的软件生态系统作支撑——这背后凝聚了长达 15 年的持续投入:数百万开发者的参与、广泛的开源项目支持,以及成千上万家供应商共同打造兼容的解决方案。

2.png

当今领先的 AI 基础设施部署依托于成熟的软件栈,涵盖 Linux 发行版、云原生技术、企业级 SaaS 应用以及 AI/ML 框架等。这种软件的成熟度使得企业能够放心地部署新的硬件架构,确信其整个技术堆栈可以无缝运行。

Awad 表示,“如果没有软件,硬件就没有意义。这一点至关重要。因为当我们谈论为 AI 而打造的加速器、设备和芯片时,人们常常会问我软件方面的情况。常有初创公司来找我说,‘嘿,我开发了这个很棒的硬件产品。’但当我问他们,‘有多少人专门为它开发软件?’时,答案往往就没那么有说服力了。”

拥抱基础设施变革

随着 AI 持续呈指数级增长,基础设施面临的挑战也将愈发严峻。企业无法仅靠增加传统服务器来实现扩展,他们需要的是专为 AI 工作负载优化的定制化系统,同时还必须具备在前所未有的规模下高效运行的能力。

能够成功应对这一转型的企业和技术,往往具备共同的特征:它们通过技术领先追求突破性性能表现,采用系统级的整体思维而非组件级思维,并构建协作型生态系统,在加速创新的同时降低个体风险。

这场基础设施变革既是挑战,也是机遇。那些正在着手准备——通过理解这些核心原则并构建合适的技术基础——的企业,将更有机会抓住 AI 所带来的万亿美元级市场机遇。而仍然固守旧有模式的企业,则有可能错失当代最大的技术机遇。

Awad 总结,“未来属于那些已经准备好去创造它的人。”基础设施的变革已经启程。