展锐虎贲T7520炫技系列之语音唤醒

“小展同学,定个明天早上8点的闹钟。”

“好的,已经帮您定好明天早上8点的闹钟。”

不少同学都体验过AI智能音箱吧,像天猫精灵、小爱同学这类人机交互智能家居,不仅便捷了我们的日常生活,还因为他们或机智或逗比的回答,给我们的生活带来了不少欢乐。

人机交互前,设备需要先被唤醒,从休眠状态进入工作状态,才能正常的处理指令。今天,有了5G的高带宽、低延迟,以及AI赋能的语音唤醒技术,让人机交互体验更好。

语音唤醒技术是什么鬼?

语音唤醒技术通过在手机等硬件设备里预置唤醒词,在用户发出语音指令时,设备从待机或休眠进入工作状态。

值得期待的是,紫光展锐5G SoC虎贲T7520,在硬件上实现了三级低功耗语音唤醒,唤醒准确率超过95%,唤醒延迟小于0.8s,有效解决了终端乱搭话、频繁被唤醒,有利节约功耗,提高续航能力,为5G用户带来更好的体验和价值。 

跟市面上其他唤醒方案不同的是,展锐的语音唤醒方案基于芯片级,从芯片层面上实现热词唤醒功能,功耗相对待机只增加了1.05mA,比竞品降低了30%左右。

展锐的语音唤醒方案是三级低功耗设计,包含声音能量检测模块VAD、及关键词识别模块KWS和应用处理子系统。

三级低功耗语音唤醒

展锐三级低功耗语音唤醒机制,将整个流程分为三级过程,即:

展锐虎贲T7520炫技系列之语音唤醒

第一级:通过声音能量检测模块VAD(Voice Activity Detection),检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。人们讲话时的语音信号是包含情感信息的,可以通过语音韵律的变化来识别情感特征。比如说,生气或激动时,讲话速度加快,音量提升,音调也会改变,而疲倦而抑郁时,声音往往很低。通过VAD 模块,可以把有效的语音信号和无用的语音信号进行分离,可以使讲话人识别、语义识别、语音情感分析等工作更加高效,这是语音处理过程非常必要且关键的环节。

第二级通过关键词识别模块KWS(Key Word Spotting),可以在连续的语流中实时检测出说话人特定片段或者特定词,可广泛应用在语音检索、人机交互等应用领域。当检测到特定词后,唤醒音频处理子系统(Audio Processing)进行关键字识别与匹配,它提供的实时响应和高精度,确保良好的用户体验。

第三级通过应用处理子系统(Android Processing)唤醒匹配及命令确认,当音频处理子系统识别出正确的关键词后,唤醒应用处理子系统进行唤醒词二次匹配与校验。如果成功,则进行指令确认(Command Recognition)或者检索引擎(Search Engine)进行上层业务,否则保持待机状态等待下一轮语音检测。

在智能家居、智慧家庭等生活场景里,语音唤醒和语音控制是一个必然的趋势,解放了双手,给人们的日常生活带来了极大的便利。5G和AI作为两大战略性技术,将推动社会变革,开启一个万物智能的新时代。

来源:紫光展锐UNISOC

最新文章