语音界面:下个世纪的触摸屏

人工智能和信号处理如何结合起来追踪声音的DNA


With its compelling tagline, “Signal processing that thinks,” Boston, Mass.-based startup Yobe Inc. has created software that can accurately track a voice’s “DNA” in any auditory environment, opening up exciting possibilities in a world where humans have begun talking to virtual assistants named Alexa, Siri, and Google to simplify their lives.

但是Yobe不仅仅是一家语音公司。虽然语音已经成为一款“杀手级应用”,但Yobe本质上是一家信号处理公司,而人的声音只是众多听觉信号中的一个 它的强大的技术可以隔离、识别、跟踪和利用。

Yobe的技术利用人工智能和信号处理去除语音信号中的背景噪声。

“一年半前,我们的战略赌注是亚马逊将占领市场,所以我们转向了语音服务。我们成功地将三条研究线结合在一起,及时地利用了声音海啸。如今,在我们生活的世界里,与联网设备通话是一种常见的功能。”

肯·萨顿,约贝总裁,首席执行官,联合创始人

“下个世纪的触摸屏”

制作语音的想法是我们与我们的智能设备互动的主要方式不仅仅是关于免提命令或易用性的便利;这是更直观的东西。

这是更人性化。

“如果你问我‘为什么是声音?或者更好的是,“我们为什么要跟我们的设备通话?”我会反问你一个问题:“两种众生之间最自然的联系是什么?”’答案当然是语言,”萨顿说。

“到目前为止,我们与机器互动的方式都是人工的,因为这些机器无法听到我们的声音。与某物交流的自然方式是与它交谈。这不是 一个进化.我们真的回到基础知识 - 这些基础知识会产生深远的影响。

“声音将是下个世纪的触摸屏。”

一系列的声学突破

在萨顿大胆预测的背后,有几项声学突破。S. Hamid Nawab,首席科学家和James Fairey,高级顾问/音频创新-已经在信号处理,人工智能和广播演播室方法论领域取得了成就。

这些创新在过去的30年发生完全独立研究字段时,萨顿把好幽默有尽可能多的共同点西班牙语,意第绪语,和Vulcan-not只会增加深度约在“一夜之间”的成功故事,但也是一个窗口如何辉煌,决心,祝你好运,命运可以交织在一起,从而产生改变游戏规则的创新。

纳瓦布博士的实验室是了解约贝科技故事的好地方。

在30年杰出的职业生涯中,Nawab博士运用了他对信号处理和人工智能的先进理解——这两个高度专业化的领域和技能研究一系列信号类型,包括肌电信号,这些生物医学标记测量肌肉收缩时的电流。

约贝在嘈杂环境(如人群)中使用每个人独有的生物特征识别器来识别个人的声音。

Nawab博士开发了独特的人工智能信号处理算法来分解这些肌电信号,分离它们,以便更好地理解和测量它们与单个肌肉反应的关系。Nawab能够有效地从多个信号发出的嘈杂环境中分离出单个的肌电信号。

与纳瓦布的开创性工作并行的是,菲尔里,这位音乐混音业务和广播工作室制作的终身大师,正在努力解决一个贴近他内心的问题:他患有自闭症的儿子讨厌在封闭的环境中听音乐。

Fairey把它拿到了自己以操纵声波,以找到一种方式,以便以他的儿子有利地感知的方式展示它们。

“詹姆斯偶然发现的,”萨顿回忆道,“是一份他儿子认可的音频文件。然而,由此产生的声音是我从未听过的;就像3D或高清音频一样。出乎意料的是,当我们压缩它时——有效地减少了文件中的数据量——一些违反直觉的事情发生了,它听起来甚至更好。”

仙女偶然发现了一种信号修复技术。操纵信号通常会损害它们,这是许多原因之一,例如,MP3文件听起来很细小或空洞,以及为什么语音处理方案听起来很人工。万博 尤文图斯

“在收听剪辑时,当激发信号处理的剪辑时,您通常会听到对音质产生负面影响的伪影。它不会是自然的声音,因为你已经损坏了你真正想要保留的底层信号。“

肯·萨顿,约贝总裁,首席执行官,联合创始人

将手工工作室过程自动化的工作,是Hamid Nawab博士的人工智能和信号处理世界的交叉点。在围绕约贝的广播演播室技术和方法努力创造IP之后,萨顿发现,它们能够修复被侵略性信号处理“撕裂”的信号——这是纳瓦布博士和其他在信号处理领域的科学家面临的一个挑战。

“我们的广播演播室信号修复方法允许Yobe使用大量激进的人工智能驱动的信号处理科学,这是nawab博士的领域 最终,在后面宽容我们,因为我们可以发布发出信号,使其恢复到真实的声音,“Sutton说。“这也使我们能够深入了解信号本身,识别其DNA,并将其与其个人来源和意义联系起来。在启用语音的应用程序的情况下,我们可以将针从基本的语音识别移动(计算机理解所说的话)给扬声器识别(那里计算机也明白谁在说谁)。“

纳瓦布博士和肯·萨顿在波士顿约贝总部为一名软件开发人员提供咨询。

Yobe的信号处理,人工智能和广播工作室技术的专有组合由主诱导的推理模块监督,该模块恰好应用了每个学科,通过音频帧恰好应用了音频帧。yobe武装了这项技术,正在增强嘈杂环境中启用语音应用的表现。这些是我们说的真实环境:与我们周围全部窗户,环境声音和谈话的CaCophony的真实环境。

换句话说,它是“鸡尾酒会问题”,信号处理世界的框架的一种基本,长期挑战的方式:在现实世界的声音画布的咔哒声中隔离单一的声音。

“在语音识别空间中有很多工作是,并且已经在受控,无菌环境中完成,这不是我们作为人类生活,工作,戏剧和谈话的地方,”萨顿说。“我们采取了不同的方法,它已经付款。”

话虽如此,莎顿还是很乐意不去谈论约贝在鸡尾酒派对上的成就。他非常尊重他人的努力,不会把太多功劳揽在自己身上,他更喜欢说:“我们想出了一种独特的管理和处理方法。”

这种方式正在引领新一代的应用程序和功能,使我们与机器的对话更安全、更安全、更高效。它还确保了下个世纪的触摸屏能够在现实世界中很好地运行,而不仅仅是在隔音的房间里。

约一分之三的方法

Yobe的突破性应用结合了三个不同的研究学科:

  • 信号处理:识别、分离和跟踪单个声音的“DNA”
  • 人工智能:教应用程序识别单个声音的DNA
  • 广播演播室技术:将被人工智能探索破坏的信号恢复到原来的状态

MATLAB的因素

构建结合信号处理、人工智能和演播室广播技术的应用程序 需要 一个特殊的开发环境,Yobe在MATLAB中找到了一个®从MathWorks。

“MathWorks在我们的过程中一直是一个很好的合作伙伴,在一些不同的方面帮助我们,”Sutton说。MATLAB在信号处理领域无处不在:它主导着大学课程,也是像Hamid这样的信号处理人员喜欢设计的地方。这不仅使我们更容易开发我们的解决方案,也促进了与该领域的同事分享知识。万博 尤文图斯我们可以描述我们所做的,人们也能理解。MATLAB提供了一个‘得到它’的因素。”

Nawab博士说:“MATLAB是多学科软件开发的理想工具。“MATLAB的设计使我们能够在竖井中垂直开发我们的解决方案,然后将这些竖井组合在一起。从软件开发框架的角度来看,我们的解决方案构建起来很像乐高积木。基于我们的解决方案所需要的功能,MATLAB使我们能够很容易地移动和丢弃这些块。”

萨顿说:“作为公司的首席执行官,我的一些职责是筹集资金和发展业务。“MATLAB为我们的新概念提供了一个极好的演示环境,在它成为商业级别之前很久。MATLAB使我们能够演示科学在其发展的每个阶段,帮助我们分享我们的进步,并为我们正在创造的东西建立兴奋。这对我们的企业发展至关重要。”

面板导航

生物技术

而儿童肺炎

将医疗危机转变为拯救生命的工程挑战

面板导航

人工智能

电子鼓手和人工智能团队创造了人类不可能的音乐:

为专业鼓手设计机器人假肢

面板导航

人工智能

陷入困境:

农民依靠人工智能提高产量