【原创】AI工作站正在“去云化”？英特尔这次想把大模型拉回本地

winniewei -- 周五, 04/24/2026 - 09:52

作者：电子创新网张国斌

过去三年，AI算力的叙事几乎被云计算彻底主导。大模型在数据中心训练，推理依赖云GPU完成，企业通过API调用获取能力——AI以一种“远程服务”的形式存在。

但这种模式，正在发生变化。

越来越多企业开始意识到：当AI从“能力展示”走向“生产工具”，算力的位置必须改变。它不能只在云端，它必须在本地。现在，一个微妙的变化正在发生：越来越多企业开始把AI重新拉回本地。原因很现实——成本、时延、数据安全，以及最关键的：智能体（Agent）正在变成实时系统，而不是离线工具。

在这一背景下，英特尔4月23日在北京发布新一代AI工作站平台——以至强600工作站处理器与锐炫Pro B70/B65 GPU组成的“双芯架构”，试图回答一个关键问题：当AI成为基础设施，它应该运行在哪里？英特尔给出的答案是：用至强 + 锐炫，把AI算力从云端重新分发回桌面。

一、AI正在从“云优先”走向“分布式部署”

过去的大模型体系，本质是中心化的：训练集中在超大规模数据中心、推理依赖云GPU资源、企业通过API调用完成应用集成，这一模式在早期是高效的，但在落地阶段开始暴露出结构性问题：

第一，成本失控。

随着推理调用频率增加，API费用迅速攀升，企业难以建立可预测的成本模型。

第二，时延瓶颈。

智能体（Agent）、实时交互、协同办公等场景，对响应时间的要求越来越苛刻，云端路径不再适配。

第三，数据安全与合规压力。

医疗、金融、政务等行业，核心数据无法完全外移。

第四，定制化能力不足。

企业需要基于私有知识库构建RAG系统，而不是依赖通用模型。

这使得AI基础设施开始演变为一种新的形态：云 + 本地 + 边缘的分布式算力体系，而AI工作站，正成为这个体系中的关键节点。

二、大模型进入“推理时代”，硬件逻辑正在重写

如果说2023–2024年是“训练驱动”的AI时代，那么2025之后，行业已经明显进入“推理驱动”。这一转变带来了硬件需求的根本变化：

1. 显存，成为第一瓶颈

模型参数规模趋于稳定，但上下文长度迅速增长，推理阶段对显存容量的依赖远高于算力峰值。32GB显存，正在成为企业级AI部署的关键门槛。

2. 并发能力，超过单点性能

发布会演示：一工作站养了86只龙虾

企业应用不再是单模型运行，而是：多Agent协同、多用户并发、多任务调度，这意味着：系统吞吐量，比单卡性能更重要

3. CPU重新回到核心位置

在推理时代，CPU不再只是“辅助角色”，而是：任务调度中心、数据流管理核心、多模型协同控制器，GPU负责计算，CPU负责“组织计算”。

三、英特尔的“双芯路径”：不是拼单点性能，而是系统能力

4月23日，英特尔公司在北京举办新一代AI工作站平台发布会，推出英特尔® 至强® 600工作站处理器与英特尔锐炫™ Pro B70、B65 GPU。双芯的强强联合，将为AI开发者与企业打造覆盖从日常应用和专业重负载AI应用、且颇具成本效益的高效工作平台。

英特尔市场营销集团副总裁、中国区总经理郭威

英特尔市场营销集团副总裁、中国区总经理郭威，阐释英特尔顺应智能体应用需求，利用至强和锐炫的双芯协同，让AI工作站真正做到了能攻、能守、能合

英特尔至强600工作站处理器：四维升级，释放重载算力

英特尔至强600工作站处理器为专业重负载场景和卓越性能、扩展需求而打造，在性能、扩展、AI与管理四个维度实现突破，为高性能工作站注入强劲算力。

性能跃升：最高配备86个性能核，多线程性能较上代提升高达61%，睿频最高可达4.8GHz；

灵活扩展：支持128条PCIe 5.0通道，配合芯片组，为工作站提供丰富灵活的扩展能力；

AI加速：每核内置英特尔® AMX引擎，新增FP16原生支持，AI与机器学习性能提升最高达17%，图像降噪等典型影像处理场景速度提升高达4至5倍，有效降低企业本地AI部署的门槛与TCO；

企业级管理：依托英特尔vPro® 技术体系，支持多种管理特性、多密钥内存加密与一键恢复等企业级功能，适配塔式、机架式及边缘等多种部署形态，满足企业灵活运维的需求。

英特尔至强600工作站处理器和英特尔锐炫Pro B70/B65显卡

英特尔锐炫Pro B70 GPU：超大显存，更快AI

英特尔锐炫Pro B70基于第二代Xe2架构，满足图形渲染、通用并行计算与AI加速计算等专业工作负载的需求。配备32GB显存，搭载32个Xe核心，AI算力峰值高达367 TOPS，在AI推理场景中支持更大规模的AI模型与更长的上下文窗口；

在多用户并发场景下，依然能支持高吞吐量与快速响应，为企业级AI应用带来极高的部署效益；支持SR-IOV虚拟化与50余家ISV软件认证，可灵活扩展多卡配置，配合完整的Linux软件栈（含vLLM、oneAPI、PyTorch），满足多样化部署需求。

与锐炫Pro B70同步，英特尔还推出了锐炫Pro B65，同样搭载32GB显存，提供197 TOPS算力，为专业用户提供更多灵活选择。

英特尔中国区技术部总经理高宇表示：“至强600工作站处理器与锐炫Pro B70，共同为新一代AI工作站构筑了更完整、更稳固的底座，为智能体部署、大模型推理、内容创作及专业图形处理提供澎湃动力，真正实现了智应万景。”

英特尔中国区技术部总经理高宇展示新品

总结一下，这次发布会英特尔给出的方案非常明确：不是单一芯片，而是完整平台。

至强600：把“系统能力”做到极致，最多86个性能核，多线程性能提升最高61%；支持128条PCIe 5.0通道，强化扩展能力；集成AMX引擎，支持FP16，加速AI推理；vPro企业级管理体系，强化安全与运维，其核心定位并不是“算力输出”，而是：成为AI系统的调度中枢

锐炫Pro B70/B65：用显存和并发能力定义AI GPU，基于Xe2架构的锐炫Pro B70，提供：32GB大显存，最高367 TOPS AI算力，支持SR-IOV虚拟化，完整Linux AI软件栈（vLLM / PyTorch / oneAPI）

相比传统GPU强调FP32/FP16性能，这一代产品的重点明显转向：

大模型推理 + 多用户并发 + 企业级部署能力

双芯协同的本质

至强 + 锐炫，并不是简单叠加，而是分工明确：CPU：调度、管理、并发控制、GPU：推理、加速、显存承载，这是一种更接近真实企业负载的架构设计。

四、AI工作站的真正变化：从工具变成基础设施

如果只看硬件，这次发布并不算“革命性”。真正的变化，在于应用侧。

英特尔联合生态伙伴，展示了几个关键方向：

1. 企业智能体（Agent）平台

与火山引擎打造的AgentSphere一体机，本质上是：企业内部的“AI员工系统”，特点：多智能体协同、高并发低时延、本地部署，这标志着AI开始直接参与业务流程，而不是辅助工具。

2. 实时协作系统

联想智能会议系统，实现：多会议并发、实时纪要生成、AI辅助决策，AI从“记录工具”升级为“协作参与者”。

3. 垂直行业AI

例如医疗领域：病历生成、质控分析、辅助诊断，这些场景的共性是：必须本地部署 + 必须稳定运行 + 必须低成本

4. 创意与内容生产

实时图像生成（如亦心闪绘）说明：AI正在成为创作者的“实时引擎”；延迟和带宽成为核心体验因素，这类应用天然适合本地运行。

五、英特尔的真正意图：重新进入AI主战场

当前AI算力格局已经非常清晰：训练市场：由 NVIDIA 主导

云平台：集中在 Amazon Web Services、Microsoft Azure

企业侧推理：仍在早期阶段

英特尔显然没有选择正面硬刚训练市场，而是切入一个更现实的切口：

企业级AI推理 + 本地工作站，这一路径的优势在于：利用既有CPU生态（至强），用GPU补齐推理能力，用oneAPI打通软件栈，用“平台”而非“芯片”参与竞争；换句话说：英特尔试图把AI重新定义为企业IT体系的一部分，而不是云服务的延伸

六、一个更大的趋势：AI工作站，正在变成“新服务器”

如果回看历史：PC时代，工作站是生产力工具，云时代，服务器成为算力中心；而在AI时代，一个新的形态正在出现：工作站 = 小型AI服务器

它具备：本地算力、多用户支持、AI推理能力以及行业应用承载能力。

更重要的是：它离数据更近，离用户更近。

如果说过去十年，工作站的核心任务是“生产内容”（建模、渲染、设计），

那么未来十年，它的核心任务将变成：“生产智能”。

英特尔这次发布的意义，不只是一次硬件升级，而是在回答一个更关键的问题：当AI成为基础能力之后，它究竟应该运行在云上，还是运行在你身边？

对此，大家怎么看？欢迎评论区留言讨论！

注：本文为原创文章，未经作者授权严禁转载或部分摘录切割使用，否则我们将保留侵权追诉的权利

登录或注册后发表评论