【原创】从“视频编解码器”到“视觉数据处理器”：VPU正在被AI重新定义吗？

winniewei -- 周四, 05/07/2026 - 09:17

作者：电子创新网张国斌

2026年，视频不再只是“内容”，而正在变成AI系统的核心数据入口。在这一背景下，安谋科技（中国）有限公司发布“玲珑”V560/V760（代号“峨眉”），其意义已经不止于一次IP升级，而更像是VPU架构范式的一次转向信号。而且安谋科技将自研VPU产品线命名为“玲珑”，寓意八面玲珑，万千场景全覆盖。关于该产品详细信息请看《8K+AI全拿下！安谋科技“玲珑”VPU，直接把视频处理卷到新高度》

如果用一句话概括这次演进的本质：VPU正在从“压缩视频”走向“理解视频”。现在，我们就结合新品技术细节与一线访谈信息，系统拆解VPU的技术演进路径与未来趋势。

一、为什么VPU在AI时代突然变“关键基础设施”？

过去十年，视频编解码的核心矛盾很简单：在画质、码率、算力之间做工程权衡。但AI的引入，让这个问题发生了本质变化：

1）视频从“消费数据”变成“训练数据”

多模态大模型需要海量视频数据，视频不仅要“看”，还要“被机器理解”，数据形态从“连续帧”转向“结构化特征输入”。

安谋科技Arm China VPU研发总监黄鑫博士在接受电子创新网采访时表示：“在如今AI与视频相互赋能的时代，视频处理正面临前所未有的机遇和挑战。客户希望VPU在输出视频的同时，生成可用于AI的‘副产品’数据。”

这意味着VPU不再只是输出像素，而是输出语义增强的数据流。

2）带宽与存储成为AI时代的隐性瓶颈

数据中心视频转码规模爆炸、自动驾驶/机器人产生多路视频流、AIGC进一步放大视频生成与传输压力，这导致 “码率降低20%~80%”的意义不只是压缩，而是直接降低数据中心TCO、缓解边缘设备带宽瓶颈。

3）实时性成为刚性指标

如今，视频会议、云游戏、自动驾驶场景中“延时”从体验问题变为系统稳定性问题，因此条带级编码的价值将编码延迟从“帧级”降到“子帧级”，本质是pipeline细粒度重构。

二、V560/V760的核心技术：一次“工程现实主义”的AI落地

与很多“AI加持”的IP不同，这一代“玲珑”的关键不在“用AI”，而在于如何把AI约束到工程可落地的最优点。

1）轻量AI（CAE）：从“过度设计”到“有效设计”

黄鑫博士指出“用完整CNN做前处理是overkill（杀鸡用牛刀）。”原因在于编码器本身是强非线性系统（频域+空间域），大模型前处理的信息会被“再次压缩”，性价比不成立。

因此CAE的本质是不是AI替代编码器而是服务编码器的AI增强模块

其技术路径是语义识别 → 像素级优化 → 动态码率分配，这是一个非常典型的“工程化AI”路径：模型裁剪→ 算子抽象→ 硬件友好部署。

2）多核+积木式架构：应对“碎片化视频世界”

VPU市场一个长期被低估的现实是视频需求极度碎片化。不同场景差异巨大：；例如手机是功耗敏感应用，而数据中心对吞吐敏感，汽车则设计实时+多路并发场景。

“积木式堆叠”的真正价值是模块级裁剪（如是否支持H.266）、多核异构调度与参数化配置交付，本质上是把SoC设计的一部分复杂性前移到IP层解决。

3）多协议策略：H.266 vs AV1的现实选择

黄鑫博士表示目前视频编解码标标准中，AV1是软件友好，生态偏海外而H.266（VVC）是硬件友好，更适合ASIC实现

这背后是两个路线：AV1软件优先Web/云，而H.266硬件优先终端/SoC，所以“玲珑”选择押注H.266，本质是站在硬件效率与国产生态的交汇点上。

三、一个关键转折：VPU正在“侵入”AI计算链路

笔者认为在访谈值得重视的是黄鑫博士指出的：“VPU未来可能只输出中间特征，而不是图像。”

这意味着什么？意味着：

1）VPU角色升级：从Codec → Pre-AI Processor

而传统链路：Camera → ISP → VPU → Display

所以未来链路可能是Camera → ISP → VPU → AI模型（不一定出图）

VPU开始承担特征提取、数据筛选、语义压缩等任务。

2）“副产品数据流”成为新接口

目前客户需求已经发生变化：不只要视频流还要ROI区域、关键帧、语义标签、Patch数据等，这本质是VPU成为多模态数据预处理节点。

3）具身智能带来的新变量

注意，视频是人类自己创造的一种文件格式在自然界是不存在，如在机器人/自动驾驶场景中，是不需要“看视频”而需要“理解环境”，因此不需要完整图像输出，只需要目标识别结果、关键区域特征，所以VPU可能演变为视觉数据过滤器 + 特征压缩器。

四、终极趋势：端到端AI VPU（End-to-End AI Codec）

根据黄鑫博士的介绍，目前“玲珑”的技术路线可以总结为：短期（V560/V760）、局部AI优化（CAE）、编解码增强而中期则是前后处理协同优化、编解码与AI协同设计；长期则是构建端到端训练的AI视频编码框架

什么是“端到端VPU”？不是编码器 + AI模块而是输入视频 → 神经网络 → 输出压缩表示，特征是全链路训练、全局最优（而非局部优化）、编码格式可能重构。当然这方面还面临一些关键技术挑战如缺乏统一训练框架、硬件可实现性（功耗/面积）以及标准缺失（替代H.26x？）等。

五、VPU vs GPU/FPGA：算力分工正在重构

在数据中心场景，一个现实趋势正在形成，那就是计算单元角色GPUAI训练/推理CPU调度VPU视频预处理/转码FPGA过渡/灵活协议。

一个关键替代逻辑是协议稳定后 → FPGA被VPU替代，AI前处理增强 → GPU负载下降。

六、结论：VPU的三条确定性演进路径

基于本次发布与访谈，可以给出VPU三个明确演进路径：

1）AI化：但不是“暴力AI”

→ 轻量AI + 工程优化将成为主流路径

2）数据化：从视频处理走向数据处理

→ 输出“特征”比输出“画面”更重要

3）平台化：从IP走向框架

→ 未来竞争不只是IP性能，而是工具链、训练框架和生态绑定。

因此可以判断，VPU不会被AI替代，反而会成为AI时代最被低估的基础设施之一。在多模态与具身智能的推动下，VPU的终极形态，很可能不再叫“Video Processing Unit”，而是Visual Processing Unit（视觉数据处理单元），也可以说VPU正在从“视频处理芯片”进化为“多模态AI时代的视觉计算单元”——它不仅可以负责高效的视频处理，更承担起智能感知、场景理解、实时响应的重任。

而“玲珑”V560/V760，可以看作是这一演进路径上的一个清晰起点。

对此，大家怎么看，欢迎留言评论！

注：本文为原创文章，未经作者授权严禁转载或部分摘录切割使用，否则我们将保留侵权追诉的权利

登录或注册后发表评论