
作者:电子创新网张国斌
语音交互正经历从“能听懂”到“会交流”的进化。无论是智能耳机、玩具、会议系统还是办公助手,用户的体验关键在于两点:听得明白、讲得清楚。
然而现实的语音场景极其复杂——方言、多说话人、噪声环境、非标准发音……都让AI语音系统的鲁棒性面临严峻考验。
在2025湾芯展上,春芽萌发半导体科技有限公司CEO温晓宇在接受电子创新网专访时指出语音AI的下一阶段竞争,不仅是算法的较量,更是软硬结合的系统优化能力。
“多人交互、方言识别、混响抑制,这些问题的核心在于空间计算与声纹区分,而这需要底层硬件与算法协同。”她强调。
二、空间计算与声纹识别:AI“听觉”能力的双引擎
据她介绍,春芽萌发的技术布局分为两条主线:
1、空间计算(Spatial Audio Computation)
通过多麦克风阵列或双麦系统实现声源定位、混响抑制、降噪与声场分离。温晓宇解释道:“如果设备上只有一个麦克风,我们的算法很难实现精确的空间分离;但在双麦、双耳机配置下,就可以进行空间建模,实现更真实的声学还原与降噪效果。”
三、延迟与成本的平衡:为什么AI玩具比手机更“慢”
语音AI体验中另一个关键指标是延迟。温晓宇举了一个典型例子:同样使用大模型,手机上的AI语音助手响应迅速,而AI玩具却常常“卡顿几秒”。
其背后的原因并不神秘:这是源于通信模块性能差异--手机使用高规格Wi-Fi/蓝牙模块和天线设计,而玩具因成本控制使用低成本方案。
此外也是模型调用模式不同:春芽萌发内部称“流式ASR”(Streaming ASR)模式可实现30毫秒级响应,但运行成本高(每天约6元人民币),而“片段式ASR”成本仅为2–3元。很多厂商为了节省云端调用费用,选择后者,导致延迟明显。
“ASR的成本与算力消耗直接相关。我们认为语音识别的真正爆发点不会在玩具,而会在耳机、办公会议、AI协作场景。”温晓宇指出。
四、自研SoC:让AI“落地”的关键一步
据她介绍,春芽萌发的核心竞争力在于自研语音AI SoC芯片。该芯片内置一个轻量级CPU核和一个自主研发的Transformer加速核心,可运行1.5B参数级别以下的轻量级模型。
“我们的芯片可以跑其它更大的模型,但目前针对STT我们封装成黑盒,只开放‘语音进出、文字进出’的接口。”温晓宇指出。
这种封闭式设计背后,是为了降低客户的AI集成门槛。目前很多硬件厂商缺乏AI模型工程师团队,而春芽萌发通过预调优模型参数、提供标准接口,让客户“即插即用”,无需自己适配复杂的模型部署流程。
温晓宇指出:“我们的目标是让硬件厂商只需要懂硬件,不必再招AI专家,也能把语音AI功能集成到产品中。”
五、边缘智能战略:在功耗与体验之间取平衡
当前主流的语音AI方案多依赖云端计算,带来高延迟与高带宽成本。春芽萌发的方向恰恰相反——向边缘靠近。凭借轻量化Transformer与自研SoC,其语音识别、声纹分离、空间计算等功能可在本地端快速完成,大幅减少对云的依赖。
这对未来的耳机、会议设备、车载语音系统尤其关键——低功耗、低延迟、隐私安全。目前,春芽萌发已进入多家客户的FPGA验证阶段,预计将在2026年上半年推出量产版SoC。
六、结语:语音AI的“硬科技复兴”
过去几年,语音AI的创新多集中在模型层面,但春芽萌发的实践提醒产业——语音智能的竞争,最终要回到“软硬结合”的落地能力上。在大模型狂潮下,他们选择了一条不那么喧嚣、却更坚实的路线:用芯片定义延迟,用算法定义体验,用系统定义智能。
当语音AI的下一波浪潮来临,能真正让设备“听得懂人话”的,不再只是云端模型,而是像春芽萌发这样的“边缘大脑”。
注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利