让AI部署不再“烧钱”:英特尔锐炫多卡方案登场!

作者:电子创新网张国斌

2025年10月16日,深圳湾区半导体大会现场,英特尔中国区显卡与AI高级产品总监徐金平登台分享了一场干货满满的主题演讲——《英特尔锐炫多卡方案助阵AI应用落地部署》。

1 (1).png

英特尔中国区显卡和AI高级产品总监徐金平发表演讲

这场演讲不仅是一场新品解读,更是一次关于AI算力架构演进的战略宣言:英特尔希望通过锐炫多卡方案,让AI真正从“实验室”走进“生产线”,以更高算力密度、更低部署门槛,支撑企业从边缘到云端的全场景智能化转型。

一、AI算力需求爆发:从“参数规模”到“部署效率”的竞速

2025年无疑是AI产业的“加速年”,从感知AI到生成式AI,再到当下炙手可热的“智能体AI”,AI正以指数级速度向更复杂的场景演进。正如徐金平所言:“AI的发展已经进入一个多模态、智能体并行爆发的阶段,模型规模正从数十亿参数迈向万亿级,而智能体AI和物理AI将成为新的增长引擎。”

但巨大的模型规模带来两大现实挑战——算力瓶颈能效瓶颈当下,AI模型推理的主要难题,不再只是训练,而是如何让海量推理在本地、边缘或企业服务器中“跑得起来、跑得快、成本还可控”。

英特尔的解法,是以锐炫Pro B系列GPU为核心,构建灵活扩展的多卡互联方案,以开放软件栈支撑“软硬一体”的AI落地生态。

二、“战斗阵列”登场:多卡协同让AI部署不再受限

这一次,英特尔带来的不仅是一块显卡,而是一整套方案。基于锐炫Pro B60 GPUBattlematrix(战斗阵列)推理工作站平台,可以灵活配置8至16张显卡,显存总量高达192GB至384GB,峰值算力可支持百亿乃至千亿参数模型,真正打破单GPU在显存、带宽、并发量上的天花板。

 据介绍,在内部测试中,英特尔工程团队利用该方案,将原本需数天完成的代码修复流程压缩至数小时——这意味着AI推理平台从“概念验证”进入了“工程效率”时代。

▶ 技术亮点一:为AI推理量身打造的硬件参数

  • 显存容量:24GB GDDR6

  • 显存带宽:456GB/s

  • 算力性能:197 TOPS峰值

  • 互联架构:PCIe Gen5 ×8,可实现单卡双芯设计

这些参数的叠加,使锐炫Pro B60成为边缘AI和企业推理级应用的“甜点GPU”——兼顾性能、能耗与成本。

▶ 技术亮点二:GPU Direct多卡通信

Battlematrix平台支持GPU间的P2P显存直访(Peer-to-Peer)跨服务器的RDMA互联(GPU Direct RDMA)这意味着多卡之间可像“一个统一的超级GPU”般协同计算,大幅降低数据搬运延迟,为大模型推理提供接近线性扩展的算力提升。

三、分层部署架构:从AI PC到AI服务器的“全景覆盖”

英特尔此次发布的锐炫多卡方案,不止于单点性能的提升,而是为企业提供分层部署架构(Tiered AI Deployment)不同层级的用户与场景,都有相匹配的算力组合:

应用层级

典型配置

模型规模

并发用户

典型场景

个人/边缘轻量AI

1×酷睿 + 1-2×锐炫Pro B60

7B-32B

1-16

AI PC、智能终端

部门级工作站/服务器

至强 + 4×锐炫Pro B60

32B-70B

50+

AI推理工作站、企业RAG

企业级AI服务器

双至强 + 8-16×锐炫Pro B60

32B-100B

100+

专用AI服务器、智能体平台

这种“从边缘到云端”的架构思路,使AI算力像积木一样可模块化扩展,企业可以按需部署、按预算扩容,避免一次性投资的浪费。同时,通过英特尔的全栈验证和容器化软件方案,企业可直接获取预配置的AI软件环境,快速上线模型推理服务。

四、软硬一体:英特尔的长期策略与生态优势

AI竞争的核心不只是硬件性能,更在于生态集成能力徐金平强调:“英特尔的优势在于开放的软硬件生态。无论是CPU、GPU,还是AI框架和编译器层,我们都坚持开源和标准化的方向。”

锐炫Pro系列与英特尔至强、酷睿处理器的协同,背后依托的是OneAPI与OpenVINO生态体系——这让开发者能够在同一软件框架下调用不同硬件资源,无缝迁移模型,极大降低AI部署复杂度。

同时,英特尔与国内服务器厂商、AI应用企业正进行联合验证,推出周期性更新的软件栈和驱动,确保兼容性和优化性能。这种全栈整合模式,也让Battlematrix“战斗阵列”成为面向AI推理市场的一站式解决方案。

五、AI时代的战略定位:让“主流价位”成为AI普惠的入口

面对AIGC与大模型带来的全球算力竞赛,英特尔显然没有选择“极端堆料”的路线,而是锁定在**“高性价比AI算力”**的市场带宽。锐炫Pro B60的出现,补齐了企业AI部署中“中等规模模型+高频推理任务”的性能空白,成为连接AI PC与数据中心GPU的中间层。

如徐金平所总结的那样:“B60是企业和边缘AI的‘甜点级GPU’。我们希望让更多企业能以合理的成本,真正把AI用起来,而不是停留在概念层面。”

AI的算力体系正在从“巨无霸模型”的集中训练,走向“分布式推理”的高效部署。在这场趋势中,英特尔的锐炫多卡方案不仅是硬件的创新,更是一种算力生态重构的信号。它以开放架构和分层部署思路,为AI在中国及全球市场的普惠落地,提供了一条更务实、更可持续的路径。

从边缘到数据中心,从个人到企业,英特尔正让AI算力不再是奢侈品,而是生产力的基础设施。