
作者:电子创新网张国斌
最近老张参加了多场有关NPU的发布会,感觉NPU越来越受到热捧,为什么所有人都在重新押注 NPU?
过去两年,AI 的叙事几乎被“云端大模型 + GPU 集群”占据。但一个新的趋势正在悄然成型:AI 正在从云走向边缘,从数据中心走向终端设备。
手机、AI PC、智能摄像头、工业网关、车载系统、机器人……它们都开始承载更复杂的 AI 能力。这一变化带来的直接结果,是算力形态的彻底重构。
与高功耗、高带宽、高成本的云端 GPU 不同,边缘设备要的是:
更低的功耗
更高的能效比(TOPS/W)
更小的面积
更低的成本
更灵活的模型适配能力
于是,NPU开始被重新定义,甚至进化为更具针对性的DSA(Domain-Specific Architecture,领域专用架构)。
最近几年,芯原(VeriSilicon)、安谋科技(Arm China)以及隼瞻科技等公司纷纷加大在 NPU 与 DSA 方向的投入,揭示出一个非常清晰的信号:边缘 AI 正在催生一代全新的“端侧专用算力架构”。
那么问题来了:
未来的边缘端 NPU 会长成什么样?
哪些架构会真正受到市场欢迎?
首先我们从需求说起。
一、边缘 AI 对算力的「五大硬核要求」
与数据中心完全不同,边缘 AI 的算力需求有着极强的现实约束:
1. 「每一瓦功耗都很贵」
边缘设备的能耗预算往往只有几瓦,甚至是毫瓦级。在这种前提下,追求峰值 TOPS 已经没有意义,TOPS/W 才是一切。
结论:未来胜出的不是“更强的NPU”,而是「更省电的NPU」。
2. 从 CNN 走向 Transformer / 大模型架构
边缘 AI 不再只跑人脸识别、物体检测等简单 CNN 模型,而开始尝试:
小模型版 LLM
多模态模型
语音 / 视觉 / 文本混合推理
这意味着 NPU 需要:
更强的矩阵乘法能力
对 Attention 结构的友好支持
对稀疏/密集混合计算的适配能力
传统“只为卷积而生的 NPU”正在被淘汰。
3. 带宽与内存永远是瓶颈
边缘设备不可能配备 HBM、高速大容量内存。因此,未来的 NPU 必须支持:
高倍率权重压缩
片上解压(Decompression)
流水化执行
更高效的存储层次(SRAM 复用/共享)
带宽效率和缓存利用率,已经和算力本身同等重要。
4. 软件决定生死
一个没有好工具链的 NPU 是没有未来的。边缘端的现实是:“我不会改你的芯片,我只会改模型”。
所以你需要:
比 ONNX / TFLite 更友好的编译工具链
更成熟的量化支持
自动调优能力
快速迁移能力
这也是芯原、安谋重点投入 SDK 与工具链的原因。
5. 汽车与工业拉高了“安全门槛”
当 NPU 走入汽车与工业,一切都变了:
功能安全(ISO 26262)
可靠性
可解释性
可验证性
这也解释了为什么芯原开始强调车规级 NPU 和功能安全认证:端侧算力,已经不只是“性能工具”,而是“安全责任”。
二、三种代表性路线:芯原、安谋科技、隼瞻分别押注了什么?
三家企业,代表了三种极具象征意义的技术路线。
⑴ 芯原:强调「低功耗 + 可扩展 + 产业适配」
芯原在 NPU 上的核心逻辑是:
可扩展架构
面向大模型趋势的优化
完整 SDK + SoC 设计服务
车规与工业级目标明确
它不是只卖一个 IP,而是提供完整的端侧 AI 解决方案能力,更适合给终端厂商做“定制化落地”。核心价值在于两个字:落地。
⑵ 安谋科技:DSP + DSA 的混合架构范式
安谋科技推出的「周易 X3」给了行业一个非常清晰的方向:未来不是单一 NPU,而是 DSP + DSA(Domain-Specific Accelerator) 的混合体。
它解决的正是当下最痛的几个问题:
兼容 CNN + Transformer
支持低比特计算(W4A8、FP8 等)
支持硬件级压缩与解压
强调异构协同(与 Arm CPU/GPU 协同)
这实际上定义了一代全新范式:
不是“更强的NPU”,而是“更聪明的异构AI引擎”。
⑶ 隼瞻科技:走向更激进的「DSA + RISC-V」

在12月1日,在贸泽电子芯英雄联盟直播间,隼瞻科技创始人兼CEO曾轶指出RISC-V DSA架构NPU在高性能计算和能效比方面具有显著优势。通过优化的微架构设计和指令集扩展,RISC-V能够在单位面积上提供更高的性能和核数,特别是在AI推理等高效能需求的应用中表现出色。隼瞻科技的“智翼”系列解决方案强调了其极致能效比,专有架构设计和深度优化保障在同等算力下实现极低面积与极小功耗,适合电池供电和空间受限的设备。
“如果世界不再需要“通用架构”,那我们就给每个场景定制一套「专用大脑」。”他指出。
据他介绍,隼瞻科技通过RISC-V 指令集+DSA 定制化加速引擎+自动化架构设计工具让“每天都能造一颗新芯片”成为可能。在边缘 AI 场景极度碎片化的世界里,这种能力非常有杀伤力。
未来拼的不只是性能,而是定制速度与适配能力。
他说隼瞻科技发布的ArchitStudio处理器敏捷开发平台,彻底革新了传统的DSA设计流程。该平台能够快速高效地进行处理器定制与优化,使得客户可以根据不同的应用场景和算法需求灵活选择不同的模块单元组合,大大缩短了开发周期,提高了开发效率。“我们为大家做了一道NPU 预制菜!”曾轶强调。
三、未来 5 年,端侧 NPU 的 4 个确定性趋势
如果从产业视角来看,未来会逐渐收敛到 4 个方向:
趋势一:混合架构成为主流
DSP + DSA + NPU 模块化组合将取代单一结构。灵活、高效、可进化。
趋势二:低比特 + 压缩成为标准能力
W4 / W8 / FP8 + 硬件解压会成为标配特性。真正拉开差距的不是算力,而是带宽效率。
趋势三:可配置、可裁剪能力决定胜负--未来的 NPU 不是一颗,是一个 “算力积木系统”:你需要什么,就拼什么。这正是 DSA 最大的魅力。
趋势四:从“芯片竞争”升级为“工具链竞争”
最后赢的,不一定是性能最强的,而是最好用的那一家。开发者生态 + 软件友好性 = 真正的护城河。
四、哪种架构会“更受欢迎”?
总结一句预测:
DSP + 可编程 DSA 混合架构
模块化 DSA + RISC-V 控制域
内建压缩 + 低比特支持
强 SaaS 工具链 + 低门槛开发
谁能把这件事做得最简单、最省电、最省时间,谁就更有可能赢得边缘 AI 的未来。未来,不只属于 GPU,也不只属于 NPU。
而是属于:真正理解“场景”的架构。
注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利