【原创】从“视频编解码器”到“视觉数据处理器”:VPU正在被AI重新定义吗?

作者:电子创新网张国斌

2026年,视频不再只是“内容”,而正在变成AI系统的核心数据入口。在这一背景下,安谋科技(中国)有限公司发布“玲珑”V560/V760(代号“峨眉”),其意义已经不止于一次IP升级,而更像是VPU架构范式的一次转向信号。而且安谋科技将自研VPU产品线命名为“玲珑”,寓意八面玲珑,万千场景全覆盖。关于该产品详细信息请看《8K+AI全拿下!安谋科技“玲珑”VPU,直接把视频处理卷到新高度

如果用一句话概括这次演进的本质:VPU正在从“压缩视频”走向“理解视频”。现在,我们就结合新品技术细节与一线访谈信息,系统拆解VPU的技术演进路径与未来趋势。

一、为什么VPU在AI时代突然变“关键基础设施”?

过去十年,视频编解码的核心矛盾很简单:在画质、码率、算力之间做工程权衡。但AI的引入,让这个问题发生了本质变化:

1)视频从“消费数据”变成“训练数据”

多模态大模型需要海量视频数据,视频不仅要“看”,还要“被机器理解”,数据形态从“连续帧”转向“结构化特征输入”。

安谋科技Arm China VPU研发总监黄鑫博士在接受电子创新网采访时表示:“在如今AI与视频相互赋能的时代,视频处理正面临前所未有的机遇和挑战。客户希望VPU在输出视频的同时,生成可用于AI的‘副产品’数据。”

这意味着VPU不再只是输出像素,而是输出语义增强的数据流。

2)带宽与存储成为AI时代的隐性瓶颈

数据中心视频转码规模爆炸、自动驾驶/机器人产生多路视频流、AIGC进一步放大视频生成与传输压力,这导致 “码率降低20%~80%”的意义不只是压缩,而是直接降低数据中心TCO、缓解边缘设备带宽瓶颈。

3)实时性成为刚性指标

如今,视频会议、云游戏、自动驾驶场景中“延时”从体验问题变为系统稳定性问题,因此条带级编码的价值将编码延迟从“帧级”降到“子帧级”,本质是pipeline细粒度重构。

二、V560/V760的核心技术:一次“工程现实主义”的AI落地

与很多“AI加持”的IP不同,这一代“玲珑”的关键不在“用AI”,而在于如何把AI约束到工程可落地的最优点。

1)轻量AI(CAE):从“过度设计”到“有效设计”

黄鑫博士指出“用完整CNN做前处理是overkill(杀鸡用牛刀)。”原因在于编码器本身是强非线性系统(频域+空间域),大模型前处理的信息会被“再次压缩”,性价比不成立。

因此CAE的本质是不是AI替代编码器而是服务编码器的AI增强模块

其技术路径是语义识别 → 像素级优化 → 动态码率分配,这是一个非常典型的“工程化AI”路径:模型裁剪→ 算子抽象→ 硬件友好部署。

2)多核+积木式架构:应对“碎片化视频世界”

VPU市场一个长期被低估的现实是视频需求极度碎片化。不同场景差异巨大:;例如手机是功耗敏感应用,而数据中心对吞吐敏感,汽车则设计实时+多路并发场景。

“积木式堆叠”的真正价值是模块级裁剪(如是否支持H.266)、多核异构调度与参数化配置交付,本质上是把SoC设计的一部分复杂性前移到IP层解决。

3)多协议策略:H.266 vs AV1的现实选择

黄鑫博士表示目前视频编解码标标准中,AV1是软件友好,生态偏海外而H.266(VVC)是硬件友好,更适合ASIC实现

这背后是两个路线:AV1软件优先Web/云,而H.266硬件优先终端/SoC,所以“玲珑”选择押注H.266,本质是站在硬件效率与国产生态的交汇点上。

三、一个关键转折:VPU正在“侵入”AI计算链路

笔者认为在访谈值得重视的是黄鑫博士指出的:“VPU未来可能只输出中间特征,而不是图像。”

这意味着什么?意味着:

1)VPU角色升级:从Codec → Pre-AI Processor

而传统链路:Camera → ISP → VPU → Display

所以未来链路可能是Camera → ISP → VPU → AI模型(不一定出图)

 VPU开始承担特征提取、数据筛选、语义压缩等任务。

2)“副产品数据流”成为新接口

目前客户需求已经发生变化:不只要视频流还要ROI区域、关键帧、语义标签、Patch数据等,这本质是VPU成为多模态数据预处理节点。

3)具身智能带来的新变量

注意,视频是人类自己创造的一种文件格式在自然界是 不存在,如在机器人/自动驾驶场景中,是不需要“看视频”而需要“理解环境”,因此不需要完整图像输出,只需要目标识别结果、关键区域特征,所以VPU可能演变为视觉数据过滤器 + 特征压缩器。

四、终极趋势:端到端AI VPU(End-to-End AI Codec)

根据黄鑫博士的介绍,目前“玲珑”的技术路线可以总结为:短期(V560/V760)、局部AI优化(CAE)、编解码增强而中期则是前后处理协同优化、编解码与AI协同设计;长期则是构建端到端训练的AI视频编码框架

什么是“端到端VPU”?不是编码器 + AI模块而是输入视频 → 神经网络 → 输出压缩表示,特征是全链路训练、全局最优(而非局部优化)、编码格式可能重构。当然这方面还面临一些关键技术挑战如缺乏统一训练框架、硬件可实现性(功耗/面积)以及标准缺失(替代H.26x?)等。

五、VPU vs GPU/FPGA:算力分工正在重构

在数据中心场景,一个现实趋势正在形成,那就是计算单元角色GPUAI训练/推理CPU调度VPU视频预处理/转码FPGA过渡/灵活协议。

一个关键替代逻辑是协议稳定后 → FPGA被VPU替代,AI前处理增强 → GPU负载下降。

六、结论:VPU的三条确定性演进路径

基于本次发布与访谈,可以给出VPU三个明确演进路径:

1)AI化:但不是“暴力AI”

→ 轻量AI + 工程优化将成为主流路径

2)数据化:从视频处理走向数据处理

→ 输出“特征”比输出“画面”更重要

3)平台化:从IP走向框架

→ 未来竞争不只是IP性能,而是工具链、训练框架和生态绑定。

因此可以判断,VPU不会被AI替代,反而会成为AI时代最被低估的基础设施之一。在多模态与具身智能的推动下,VPU的终极形态,很可能不再叫“Video Processing Unit”,而是Visual Processing Unit(视觉数据处理单元),也可以说VPU正在从“视频处理芯片”进化为“多模态AI时代的视觉计算单元”——它不仅可以负责高效的视频处理,更承担起智能感知、场景理解、实时响应的重任。

而“玲珑”V560/V760,可以看作是这一演进路径上的一个清晰起点。

对此,大家怎么看,欢迎留言评论!

注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利