语音接口:下个世纪的触摸屏
AI和信号处理如何走到了一起,跟踪声音的DNA
它引人注目的口号是“思考的信号处理”,波士顿,马萨诸塞州。总部位于美国的初创公司Yobe Inc.开发了一款软件,可以在任何听觉环境中准确追踪声音的“DNA”,在这个世界里,人们开始与名为Alexa、Siri和谷歌的虚拟助手交谈,以简化他们的生活,这为人们打开了令人兴奋的可能性。
但是,约贝比语音公司的更多。虽然声音已经成为一个“杀手级应用”,约贝是在它的心脏信号处理公司,以及人声只是众多听觉信号之一
“一年半前,我们枢接到语音基于战略的赌注,亚马逊打算做市场。我们只是在时间成功地将三条线的共同研究采取语音海啸的优势。现在,我们生活在一个世界里,说你的连接设备是一种常见的能力“。
肯·萨顿,约贝总裁,首席执行官兼联合创始人
“下个世纪的触摸屏”
让语音成为我们与智能设备交互的主要方式,这一想法不仅关乎免提指令的便利性或易用性;它更直观。
这是更加人性化。
“If you ask me ‘Why voice?’ or better yet, ‘Why are we talking to our devices?’ I’ll ask you a question in return: ‘What is the most natural interface between two sentient beings?’ The answer, of course, is speech,” says Sutton.
“我们一直与机器互动起来的方式到现在为止已经人为的,因为这些机器一直没能听到我们。东西沟通自然的方式是与它对话。这不是
“语音将成为下个世纪的触摸屏。”
索尼克突破的A系列
萨顿的大胆预测谎言几个音速突破的背后,他和他的约贝共同创始人,博士。S.哈米德·纳瓦布,首席科学家,和詹姆斯费尔雷,高级顾问/音频创新已经在信号处理,人工智能,以及广播演播室方法的领域取得。
The fact that these innovations occurred over the course of 30 years in completely separate research fields—which Sutton likens with good humor to having as much in common as Spanish, Yiddish, and Vulcan—not only adds depth to Yobe’s “overnight” success story, but also a window into how brilliance, determination, good luck, and fate can intertwine to result in game-changing innovation.
一个很好的开始了解约贝的技术故事在纳瓦布博士的实验室。
在30年杰出的职业生涯中,纳瓦博博士运用了他对信号处理和人工智能——两个高度专业化的领域和技能——的先进理解
纳瓦布博士开发了独特的AI信号处理算法来分解这些肌电信号,隔离他们,因而他们个人的肌肉反应的关系,可以更好地理解和测量。纳瓦布能够在多个信号发射,有效地从嘈杂的环境中分离出来单独的肌电信号。
在平行于纳瓦布的开创性工作,费尔雷,音乐混合业务和无线电工作室制作的终身大师,正在努力解决的一个问题接近他的心脏:他的自闭症儿子的厌恶听音乐在封闭的环境中。
费尔雷自作主张操纵声波找到一种方式,他的儿子会从优感知呈现他们的一种方式。
“詹姆斯无意中发现的,”萨顿回忆道,“是一个音频文件,他的儿子也同意了。然而,由此产生的声音是我从未听到过的;它就像3D或高清音频类固醇。出乎意料的是,当我们对它进行压缩——有效地减少文件中的数据量——发生了一些违反直觉的事情,听起来甚至更好。”
菲尔里偶然发现了一种信号修复技术。操纵信号通常会损害它们,这是许多原因之一,例如,MP3文件听起来很空洞,语音处理解决方案听起来很假。万博 尤文图斯
“当听完这是信号处理大力剪辑时,你通常听到的声音质量产生负面影响的文物。这不会是自然的声音,因为你破坏了基本的信号,你真的需要保留。”
肯·萨顿,约贝总裁,首席执行官兼联合创始人
自动化的手工工作室过程中的工作是其中的故事与相交哈米德·纳瓦布博士的AI和信号处理的世界。After working diligently to create IP around Yobe’s broadcast studio technology and methodology for both sound enhancement and signal repair, Sutton found that they were able to repair signals that have been “ripped apart” by aggressive signal processing—a problem that had been a challenge for Dr. Nawab and other scientists in the field of signal processing.
“我们的广播工作室信号修复方法允许Yobe在前线使用大量积极的人工智能驱动的信号处理科学——纳瓦布博士的研究领域
Yobe的信号处理、人工智能和广播工作室技术的专利组合由一个主内收推理模块监控,该模块以正确的方式应用每个学科,一帧接一帧的音频。有了这项技术,Yobe正在提高嘈杂环境中支持语音的应用程序的性能。这些是我们说话的真实环境:开着窗户的环境,周围的声音,以及我们周围不和谐的谈话声。
换句话说,它是“鸡尾酒会问题”的信号处理世界上的它的根本,长期的挑战,一个取景方式:隔离一个声音在一片真实世界的声音画布的嗒嗒声。
“因此,在语音识别空间多工作,并已在控制,无菌的环境中进行,这恰恰是不是我们作为人类生活,工作,娱乐和谈话,”萨顿说。“我们采取了不同的方法,并得到了回报。”
这就是说,萨顿是一样开心不讨论在鸡尾酒会问题方面约贝的成就。他尊重他人的努力太多带太多信用,而宁愿说,“我们已经想出了管理和处理它的独特方式。”
通过这种方式,新一代的应用程序和功能正在使我们与机器的对话更安全、更安全、更高效。它还确保了下个世纪的触摸屏将在现实世界中运行良好,而不仅仅是在隔音的房间里。
约贝州的三合一一种方法
Yobe的突破性应用结合了三个不同的研究学科:
- 信号处理:识别、分离和跟踪单个声音的“DNA”
- 人工智能:教学中的应用来识别个人的声音的DNA
- 广播演播室技术:由AI探索打破原来的状态恢复信号
MATLAB的因素
建筑应用相结合的信号处理,人工智能,和工作室广播技术
萨顿说:“MathWorks在我们的过程中一直是一个很好的合作伙伴,在一些不同的方面帮助了我们。”“MATLAB在信号处理领域无处不在:它主导着大学课程,也是像Hamid这样的人喜欢设计的信号处理领域。这不仅使我们更容易地开发我们的解决方案,而且还有助于与该领域的同事共享知识。万博 尤文图斯我们可以描述我们所做的,人们也能理解。MATLAB提供了一个‘get it’因子。”
“MATLAB是理想的多学科软件开发,许多股被并入了一个,”纳瓦布博士说。“MATLAB的设计使我们能够垂直发展我们的解决方案,在料仓,然后把这些孤岛在一起。从软件开发的框架的角度来看,我们的解决方案是建立在很多像乐高块。MATLAB做我们很容易移动和删除这些块如何以及在何处,我们需要的基础上,我们希望为我们的解决方案的功能。”
“作为公司的CEO,我的一些职责是筹集资金和业务发展,”萨顿说。“MATLAB提供了一个很好的演示环境对我们刚刚起步的概念很久以前它是商业级。MATLAB使我们在它的每一个阶段,演示科学发展,帮助我们分享我们的进步和构建兴奋什么我们创造。这对我们来说至关重要,以推进我们的风险。”