展锐虎贲T7520炫技系列之语音唤醒

winniewei -- 周二, 12/08/2020 - 10:58

“小展同学，定个明天早上8点的闹钟。”

“好的，已经帮您定好明天早上8点的闹钟。”

不少同学都体验过AI智能音箱吧，像天猫精灵、小爱同学这类人机交互智能家居，不仅便捷了我们的日常生活，还因为他们或机智或逗比的回答，给我们的生活带来了不少欢乐。

人机交互前，设备需要先被唤醒，从休眠状态进入工作状态，才能正常的处理指令。今天，有了5G的高带宽、低延迟，以及AI赋能的语音唤醒技术，让人机交互体验更好。

语音唤醒技术是什么鬼？

语音唤醒技术通过在手机等硬件设备里预置唤醒词，在用户发出语音指令时，设备从待机或休眠进入工作状态。

值得期待的是，紫光展锐5G SoC虎贲T7520，在硬件上实现了三级低功耗语音唤醒，唤醒准确率超过95%，唤醒延迟小于0.8s，有效解决了终端乱搭话、频繁被唤醒，有利节约功耗，提高续航能力，为5G用户带来更好的体验和价值。

跟市面上其他唤醒方案不同的是，展锐的语音唤醒方案基于芯片级，从芯片层面上实现热词唤醒功能，功耗相对待机只增加了1.05mA，比竞品降低了30%左右。

展锐的语音唤醒方案是三级低功耗设计，包含声音能量检测模块VAD、及关键词识别模块KWS和应用处理子系统。

三级低功耗语音唤醒

展锐三级低功耗语音唤醒机制，将整个流程分为三级过程，即：

展锐虎贲T7520炫技系列之语音唤醒

第一级：通过声音能量检测模块VAD（Voice Activity Detection），检测出语音信号的起始位置，分离出语音段和非语音（静音或噪声）段。人们讲话时的语音信号是包含情感信息的，可以通过语音韵律的变化来识别情感特征。比如说，生气或激动时，讲话速度加快，音量提升，音调也会改变，而疲倦而抑郁时，声音往往很低。通过VAD 模块，可以把有效的语音信号和无用的语音信号进行分离，可以使讲话人识别、语义识别、语音情感分析等工作更加高效，这是语音处理过程非常必要且关键的环节。

第二级通过关键词识别模块KWS（Key Word Spotting），可以在连续的语流中实时检测出说话人特定片段或者特定词，可广泛应用在语音检索、人机交互等应用领域。当检测到特定词后，唤醒音频处理子系统（Audio Processing）进行关键字识别与匹配，它提供的实时响应和高精度，确保良好的用户体验。

第三级通过应用处理子系统（Android Processing）唤醒匹配及命令确认，当音频处理子系统识别出正确的关键词后，唤醒应用处理子系统进行唤醒词二次匹配与校验。如果成功，则进行指令确认（Command Recognition）或者检索引擎(Search Engine)进行上层业务，否则保持待机状态等待下一轮语音检测。

在智能家居、智慧家庭等生活场景里，语音唤醒和语音控制是一个必然的趋势，解放了双手，给人们的日常生活带来了极大的便利。5G和AI作为两大战略性技术，将推动社会变革，开启一个万物智能的新时代。

来源：紫光展锐UNISOC

登录或注册后发表评论