超越计算:FPGA——人工智能数据中心稳定与信任的基石

人工智能的持续发展正在重塑数据中心设计与开发的基础。随着工作负载日益复杂且资源密集,运营商面临着数据中心性能、可靠性和安全性方面的重重挑战。若无法持续满足工作负载需求,基础设施将难以实现无中断的扩展。

在本文中,我们将探讨日益迫切的安全数据中心的控制需求,安全与信任如何与可管理性相结合,以及现场可编程门阵列(FPGA)为何能够成为构建安全人工智能基础设施的关键战略使能器件。

人工智能数据中心需求的转变

人工智能模型不仅改变了数据中心的功能,还改变了其构建方式。随着工作负载以前所未有的速度增长,数据中心架构变得高度异构。它们通常将各种组件——图形处理单元(GPU)、中央处理单元(CPU)、定制加速器、先进冷却系统等——集成在同一机架内,使得基础设施比以往任何时候都更大、更复杂。

这种本质上更为复杂的数据中心环境使其在管理上颇具挑战性。每个组件都为架构带来了独特的属性,从启动时序到不同的遥测格式和故障响应。若没有统一的控制层,哪怕是系统协调中微小的故障也可能像滚雪球一样演变成更大的错误和系统停机。与此同时,不断发展的数据中心接口和模块化机架设计要求有能够快速适应且不中断运行的解决方案。

归根结底,高性能不会是人工智能数据中心发展的唯一关注点。这些设施需要确定性、始终在线的控制和嵌入式安全功能,以便在日益分散的环境中可靠、安全地运行。

安全控制的重要性

人工智能已将控制从幕后功能转变为数据中心运营的战略支柱,要求系统在极端工作负载下表现出可预测性并能即时响应异常情况。确定性控制有助于确保这种一致性,支持组件间的可靠协调,避免出现延迟或失调。

随着数据中心变得更加模块化和多供应商化,安全性和信任必须融入控制功能之中。设备管理人员必须对系统内的每个组件和固件进行身份验证和证明,并在整个生命周期内实施保护,以防止篡改和信息泄露。此外,系统还必须跟上不断发展的标准和法规,从安全协议和数据模型(SPDM)标准的证明要求,到商业国家安全算法套件2.0(CNSA 2.0)等后量子框架的未来合规需求。

多层控制架构

为了保持韧性,数据中心依赖于分层控制系统:

  • 服务器级基板管理控制器(BMC):负责安全启动、电源时序和健康状态遥测功能。

  • 机架级资源监控与控制(RMC):集成数据、管理电源和冷却,并协调安全操作。

  • 卫星控制器:实时监测泄漏情况并立即隔离故障。

嵌入在这些控制器中的FPGA可对遥测数据进行标准化处理,实现实时故障响应,并连接Redfish、PMBus和通过PCIe的MCTP等协议。

FPGA作为战略使能器件

基于硬件的解决方案可提供软件无法比拟的确定性控制。莱迪思FPGA提供:

  • 即时响应能力。当人工智能工作负载在极端温度和功率水平下运行时,毫秒之差都至关重要。莱迪思FPGA可实现纳秒级时序和实时故障响应,在液体冷却泄漏等潜在破坏性事件发生时立即采取行动。

  • 并行处理和接口灵活性。传统串行处理无法支持充满传感器和加速器的机架。莱迪思FPGA可同时处理I3C、PMBus/SMBus、通过PCIe的MCTP、I2C、SPI和GPIO等多种协议,避免瓶颈并实现可扩展性。

  • 内置安全功能。作为最先启动和最后断电的器件,适用于安全控制的莱迪思FPGA可作为硬件信任根(HRoT),执行安全启动和证明,确保只有受信任的固件和系统组件才能运行。

  • 加密灵活性。莱迪思FPGA支持部署后重新配置,为开发人员提供所需的灵活性,以支持随着标准不断发展而推出的新的更新和后量子加密(PQC)算法。

为数据中心的进一步发展做好准备

随着数据中心不断扩展并纳入更多样化的硬件组件,运营商将需要在性能与信任之间取得平衡。控制、安全性和适应性必须相结合,以确保在不断演进的人工智能基础设施中实现韧性和可靠性。

您可在此处查看上述LinkedIn现场小组讨论会的全部内容。如需了解莱迪思FPGA如何实现安全、可扩展的数据中心控制,请立即联系我们的团队