NVIDIA GPU加速 聆听世界的声音

上世纪 80 年代,王德良 (音译)的母亲在他还在上大学的时候就开始出现失聪,现在即使戴着助听器也很难听清别人说话。正因如此,与家人共度晚餐本是一件很开心幸福的事,但对她和她的家人来说,却变得让人头疼,甚至有时候会让人觉得精疲力尽。

王德良表示,现在已 91 岁高龄的母亲“基本上什么都听不到了”,因为助听器没什么帮助,所以她已经很少佩戴。而正担任俄亥俄州立大学计算机科学与工程教授的王德良希望借助 GPU 与深度学习来打造一款更好的助听器。

据了解,在需要佩戴助听器的人当中,有75% 的人其实并不佩戴。更让他们感到失望的是:助听器在嘈杂的环境下效果不佳。

鸡尾酒会上的难题

王德良指出,听力正常的人能够分辨语音和同一时间外面大街上公共汽车的加速轰鸣声,但助听器会增大这两者的音量,让人难以分辨。

这种现象被称作“鸡尾酒会上的难题”。人类听觉系统可以自然地过滤掉音乐和背景谈话声,从而在一间座无虚席的房间内专注于某个语音。科学家数十年来却一直无法打造出模拟这种能力的助听器。

王德良认为,助听器应该简单、易用而且有效,正如那些视力不好的人所佩戴的眼镜一样。

他表示:“我想让佩戴助听器的人能够像听力正常的人一样聆听这个世界。”

海量声音训练

为改进助听器,王德良开发了一款深度学习程序来分离语音和噪音。他和他的团队首先训练了一个神经网络,利用音量、频率和其它的声音属性来分辨语音与噪音之间的区别。

然后研究人员教神经网络学习语音以及各种各样的背景噪音。其中包括一整套标准的 IEEE 口述句子、医院自助餐厅的声音以及 10,000 种电影特效声音。从炸弹爆炸和玻璃破碎的声音到客厅或厨房内的各种声音,应有尽有。

为加速训练,研究人员采用了 CUDA 并行计算平台、NVIDIA TITAN X GPU以及包含 TensorFlow 深度学习框架的 cuDNN。

分辨力提升 9 倍

经过无数次的训练,王德良开发了一款“数字滤波器”,它可以分离语音和背景噪音并自动地单独调整每一种声音的音量。

研究人员在 12 个双耳佩戴助听器以及 12 个听力正常的人身上测试了他们的深度学习助听软件。以了解每个人在两种背景噪音 (嘈杂的说话声和自助餐厅的噪音) 下分辨语音的效果。

这些听力受损的人在噪音干扰下分辨语音的能力出现了大幅提升,其中一些人的分辨率从 10% 飙升至 90%。就连听力正常的人也能够在背景噪音下更好地分辨语音。

王德良兴奋的表示:“这意味着,我们的软件终有一天会让更多的人受惠,这已经超出了我们最初的预想。”

更清晰的战地通讯

这种深度学习助听技术还可以在手机上提升语音识别效果,帮助嘈杂工厂中的工人或战场上的士兵,让他们能够在刺耳的噪音中听清对方说话。

王德良同时也指出,我们还有更多的工作要做,在推进这一深度学习项目、将其应用到更多环境中以及在更多人身上进行测试的过程中。

而在这个过程中,母亲给了他最初的灵感,也将是他一直前进的动力。他表示:“我的母亲始终激励着我前行。”

公司信息: