语音界面:下个世纪的触摸屏
人工智能和信号处理是如何结合在一起追踪声音的DNA的
凭借其引人注目的宣传语“思考的信号处理”,马萨诸塞州波士顿。美国初创公司Yobe Inc.开发了一款软件,可以在任何听觉环境中准确追踪声音的“DNA”,为人类开始与名为Alexa、Siri和谷歌的虚拟助手交谈以简化生活的世界开辟了令人兴奋的可能性。
但Yobe不仅仅是一家语音公司。虽然语音已经成为一款“杀手级应用”,但Yobe本质上是一家信号处理公司,而人类的声音只是众多听觉信号中的一种
“一年半前,基于亚马逊将开拓市场的战略押注,我们转向了语音业务。我们成功地将三条研究线结合在一起,及时地利用了语音海啸。现在我们生活在一个与联网设备通话是一种常见功能的世界。”
肯·萨顿,Yobe总裁、首席执行官和联合创始人
“下个世纪的触摸屏”
让语音成为我们与智能设备交互的主要方式,不仅仅是为了方便免提指令或易于使用;它更直观。
它更人性化。
“如果你问我‘为什么用声音?或者更好的问题是,“我们为什么要对着设备说话?”’我会反过来问你一个问题:‘两个有情众生之间最自然的界面是什么?’答案当然是语言,”萨顿说。
“到目前为止,我们与机器互动的方式都是人为的,因为这些机器听不到我们的声音。与某物交流的自然方式是与它交谈。这不是
“语音将成为下个世纪的触屏。”
一系列的声波突破
在萨顿大胆的预测背后,是他和Yobe公司的联合创始人dr。首席科学家S. Hamid Nawab和音频创新高级顾问James Fairey在信号处理、人工智能和广播演播室方法领域取得了巨大成就。
事实上,这些创新发生在30年完全不同的研究领域——萨顿幽默地将其比作西班牙语、意第绪语和火神语的共同点——不仅为约贝“一夜之间”的成功故事增加了深度,而且还揭示了才华、决心、好运和命运如何交织在一起,导致改变游戏规则的创新。
纳瓦布博士的实验室是了解Yobe技术故事的一个好地方。
在30年杰出的职业生涯中,Nawab博士运用了他对信号处理和人工智能这两个高度专业化的领域和技能的先进理解
纳瓦布博士开发了独特的人工智能信号处理算法来分解这些肌电图信号,将它们分离出来,以便更好地理解和测量它们与单个肌肉反应的关系。Nawab能够有效地将单个肌电图信号从多个信号发射的嘈杂环境中分离出来。
在纳瓦布的开创性工作的同时,终身从事音乐混音业务和广播工作室制作的Fairey也在努力解决他内心深处的一个问题:他患有自闭症的儿子讨厌在封闭的环境中听音乐。
费尔雷自己承担起了操纵声波的责任,以一种能让他儿子接受的方式来呈现声波。
萨顿回忆说:“詹姆斯无意中发现了一份音频文件,他的儿子同意了。然而,产生的声音是我从未听过的;它就像是3D或HD音频的类固醇。出乎意料的是,当我们压缩它时——有效地减少了文件中的数据量——发生了一些违反直觉的事情,听起来甚至更好。”
费尔雷偶然发现了一种修复信号的技术。操纵信号通常会损害它们,这是众多原因之一,例如,MP3文件听起来很细或很空洞,以及为什么语音处理解决方案听起来很做作。万博 尤文图斯
“当听一段信号被积极处理的片段时,你通常会听到对音质有负面影响的伪影。它听起来就不自然了,因为你破坏了你真正想保护的潜在信号。”
肯·萨顿,Yobe总裁、首席执行官和联合创始人
将手工工作室过程自动化的工作是故事与Hamid Nawab博士的人工智能和信号处理世界相交的地方。在围绕Yobe的广播演播室技术和方法(用于声音增强和信号修复)努力创建IP后,Sutton发现他们能够修复被积极的信号处理“撕裂”的信号——这是Nawab博士和信号处理领域的其他科学家一直面临的挑战。
“我们的广播演播室信号修复方法允许Yobe使用大量积极的人工智能驱动的信号处理科学,这是nawab博士的领域
Yobe的信号处理、人工智能和广播演播室技术的专有组合由一个主归纳推理模块监督,该模块将每个学科精确地应用于正确的测量,一帧一帧地应用音频帧。有了这项技术,Yobe正在提高在嘈杂环境中支持语音的应用程序的性能。这些是我们说话的真实环境:窗户开着,周围有环境声,我们周围有不和谐的谈话声。
换句话说,这是一个“鸡尾酒会问题”,信号处理界用这种方式来构建一个基本的、长期存在的挑战:在现实世界嘈杂的声音画布中隔离出一个单一的声音。
萨顿说:“语音识别领域的很多工作都是在受控的无菌环境中完成的,而这不是我们人类生活、工作、娱乐和交谈的地方。”“我们采取了不同的方法,并取得了成效。”
也就是说,萨顿很高兴不用鸡尾酒会的问题来讨论约贝的成就。他非常尊重他人的努力,不会居功至高,他更愿意说:“我们已经想出了一种独特的管理和处理方法。”
这种方式正在引领新一代的应用程序和功能,使我们与机器的对话更安全、更安全、更高效。这也确保了下个世纪的触摸屏能够在现实世界中正常运行,而不仅仅是在隔音的房间里。
Yobe的三合一方法
Yobe的突破性应用结合了三个不同的研究学科:
- 信号处理:识别、分离和跟踪单个声音的“DNA”
- 人工智能:教学应用程序识别单个声音的DNA
- 广播演播室技术:将人工智能探测破坏的信号恢复到原始状态
关键应用程序
Yobe最初的商业产品释放了在嘈杂的真实环境中基于语s manbetx 845音的界面的潜力:
- VISPR(用于档案检索的语音识别系统):低功耗,“唤醒词”为重点的平台,用于噪声和远场环境中的声控设备档案管理
- 嗓音。ē:人工智能驱动的信号处理平台,可配置为一套与语音相关的应用程序
MATLAB因子
构建结合信号处理、人工智能和演播室广播技术的应用程序
“MathWorks在我们的过程中一直是一个很好的合作伙伴,在几个不同的方面帮助我们,”萨顿说。“MATLAB在信号处理领域无处不在:它主导着大学课程,也是像Hamid这样的信号处理人员喜欢设计的地方。这不仅使我们更容易开发解决方案,而且还促进了与该领域同事的知识共享。万博 尤文图斯我们可以描述我们做了什么,人们就能理解。MATLAB提供了一个‘得到它’的因素。”
纳瓦布博士说:“MATLAB是多学科软件开发的理想选择,在这种情况下,许多分支都融合在一起。”“MATLAB的设计使我们能够在竖井中垂直开发解决方案,然后将这些竖井组合在一起。从软件开发框架的角度来看,我们的解决方案构建起来很像乐高积木。基于我们的解决方案所需的功能,MATLAB使我们能够轻松地移动和放置这些块,以我们需要的方式和位置。”
萨顿说:“作为公司的首席执行官,我的部分职责是融资和业务发展。“MATLAB为我们刚刚起步的概念提供了一个极好的演示环境,早在它达到商业级别之前。MATLAB使我们能够演示科学发展的每个阶段——帮助我们分享我们的进步,并为我们正在创造的东西感到兴奋。这对我们推动公司向前发展至关重要。”