未来语音接口:科技将科幻变为现实

未来语音接口:科技将科幻变为现实

作者:Eran Belaish,音频和语音产品线的产品营销经理,CEVA

随着虚拟助手变得更加智能,我们对它们的期望越来越高。现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感检测。在我之前的专栏中,我回顾了当前流行的语音接口的缺点和缺失功能。但是这些纠结情况正频临消除。在本文中,我将展望未来的语音接口和能够推动它们的技术。

能够相互通信的Always-Listening始终倾听机器

语音优先用户界面 (UI) 需要Always-Listening始终倾听。这对使用小电池供电的小型便携式设备来说是一个挑战,每微瓦都是宝贵的。在这方面,有趣的发展之一是使用压电从声波产生电能。一家专门研究这项技术的公司 Vesper 最近为压电 MEMS 麦克风的研发筹集了 1,500 万美元。此外,在 CES 2017 上,Vesper 和 DSP Group 展示了在电池供电设备上的近零功率语音激活。当环境安静时,他们的解决方案利用压电来保持系统处于低功耗声音唤醒模式。该平台使用 DBMD4 始终在线的语音和音频处理器实现了比现有方法低五倍的功耗(根据该公司数据)。

 

这项技术可能成为真正的Always-Listening始终倾听界面的解决方案,适用即使是最小的电池供电设备,如 Apple 的 AirPods(目前需要敲击来操作 Siri)。可以从这项技术获益的另一个设备是 Amazon Echo Tap。Tap 最近实现了软件升级,使其能够长时倾听,但升级将待机时间从三周缩短至约八小时。使用上述方法,待机时间可以增加到几个月!随着压电技术的未来改进,像 Tap 这样的设备的待机时间可能会达到数年。

 

2

微型 VM1010 压电 MEMS 麦克风可以在接近零功率时用声音唤醒(来源:Vesper)

 

对于整体 UI,机器还必须能够彼此通信,以及与人类进行通信。为了避免被限制在每个服务提供商的封闭生态系统(称为“围墙花园”)中,设备之间应该有一个统一的通信协议,类似于智能手机应用程序的深度链接。这个问题的一个解决方案可能是让设备通过无声的超声波音频进行通信,就像 LISNR 提供的技术。该解决方案使用音频波传输可定制的数据包,在启用的设备上启用近距离数据传输、第二屏幕功能、身份验证和设备到设备连接功能。

用于个性化用户体验的生物特征识别

语音界面的另一个理想特征是用户个性化。每个人都有独特的声音特征;这被称为“声纹”。通过声纹识别每个用户的技能是语音界面的巨大进步。它将通过了解每个用户经常使用哪些服务、喜欢的音乐等等,为每个用户提供个性化体验。例如,如果你和其他家庭成员使用同一个语音助手,你们每个人都可以问“我的每日日程安排什么?”,然后只收到你自己的预约。声纹也可以用于生物特征识别,确保信用卡购买只能由持卡人或其他授权用户进行。

1

情感检测和生物特征识别是你的虚拟助手将很快获得的技能(来源:CEVA)

 

有传言说 Amazon 的 Alexa 很快就会具备这样的技能;然而,在此期间,不同用户之间的切换只能通过语音进行,而不能进行身份验证。Google Home 同样如此,但是 Google Pixel 手机上的“语音助手”具备“信任的声音”功能。这使用户可以通过说“Ok,Google”来解锁手机。这表明应用了这项技术。下一步是将其适当地集成在具有远程语音拾取功能的设备中,为多个用户提供服务。实现这一点的主要障碍是在语音识别之前处理语音输入时引入的失真,如另外文中所述,为什么语音助手无法知道谁在说话。

 

在我最近的专栏中,我们介绍了语音界面背后的一些技术,我介绍了一些用于清除语音命令中噪声和回声的算法。这一清理过程倾向于消除构成声纹的独特标记。这些算法执行之后再将数据发送到通常位于云中的自动语音识别 (ASR) 引擎。结果是,发送到云端的语音数据足以理解所说的内容,但不能确定是谁说的话。在这种情况下,执行边缘分析,也就是在设备上而不是云端处理语音可以解决问题。与针对视频分析的边缘处理一样,与基于云的处理相比,高效的边缘解决方案可以改进隐私保护、提高安全性、提升速度并降低成本。

 

把事情放在上下文中:类似人类的记忆

虚拟助手的下一个挑战将是利用深度学习的力量来建立类似人类的记忆技能。这将使虚拟助手对话时具备与人类自然地与其他人交往的相同方式。这包括在上下文中引用事物的能力;例如,让我们考虑以下交流:

人类:“你记得我上个月要你订购进口啤酒以备举办我妻子的生日聚会吗?”

机器:“是的,是科罗娜黑啤,你要我再订一包六罐装吗?”

人类:“再订两包六罐装。”

机器:“好了,两包六罐装科罗娜黑啤正在路上。”

对于两个人来说,这是一个简单而微不足道的交流。但是为了让机器理解引用什么啤酒,它必须记住下上一个订单的上下文。这需要以智能的方式组合不同领域的知识(订单历史、家庭成员、日历场合)以正确理解要求。另外,请注意:在上述情景下,即使在没有明确的请求时,机器也可以理解需要它的协助,而现在的设备则还需要明确的请求。

使用卷积深层神经网络 (DNN),机器在需要复杂思想、情境记忆和决策的任务中,越来越接近于人类的表现。从为无人驾驶汽车制定驾驶策略到在伦敦地铁导航,复杂的 DNN 使机器有可能达到能实现这些目标的智能水平。

完成规划:情感检测和计算机视觉

我们与机器建立了对话关系时,我们会立即注意到有些东西是缺失的。除了我们所说的实际话语,还有我们说话的方式。当你和另一个人谈话时,你希望他能够体会言外之意 - 感受你的语气和你的心情,并且明白你的意思,而不一定是你说的话。这将我们带入情感检测或情感分析领域。像 Beyond Verbal 等公司专门分析来自声乐语调的情绪,使声音驱动设备和应用程序能够在情感层面与用户进行交互。

 

同样,视频分析用于破译用于情感检测的面部表情。在这里,深度学习再次被利用来研究庞大的面孔数据库,并学习如何判断对象表达的情感。一旦视觉也集成到虚拟助手中,他们就可以更好地理解我们的意图(例如,用户是否在指示机器,即使没有明确地使用触发词),你也可以向它们表达情绪,使用手势以及声音进行沟通。面部识别、情绪检测、类似人类的记忆和情境感知的结合将推动人机交互的全新时代。

 

当然,支持视觉的虚拟助手将进一步提升对个人隐私的忧虑。这些忧虑中的一些可能会得到缓解,通过更加智能的边缘设备和使用“本地雾化”而不是将数据发送到云进行处理。通过最大限度地减少云支持,用户还将体验到手持设备更快的响应速度和更长的电池续航时间。

现实追赶科幻小说(但是是哪个版本?)

支持语音的设备不断激发有关隐私和个人界限的伦理辩论。当他们变得更加智能、更加无处不在时,会发生什么?当他们获得视觉和情绪感知的新技能时,会发生什么?他们会突然达到一个转折点,像《西部世界》中的人物一样获得类似人类的意识和情感吗?如果是这样,会以充满激情的暴力爆发结束吗?还是他们会变得非常聪明,与我们在一起感到厌倦,深情地与我们分开,因为他们具备了奇异性,像萨曼莎《她》?无论如何,未来一定是有意思的时代。在我们仍然掌管的时候,让我们充分利用我们的技术。如果您想听到我们人类有关人机交互的迷人未来和潜在促成技术的更多交谈,请加入我们的主题网络研讨会。

那么,我的超智能、情绪感知、始终倾听小帮手,当我沉思时,播放我喜欢听的音乐。