使用深度学习的音频处理

使用音频和语音处理应用程序扩展深度学习工作流程

通过使用深度学习工具箱™和音频工具箱™，将深度学习应用于音频和语音处理应用程序。有关信号处理应用，请参见使用深度学习的信号处理．有关无线通信中的应用，请参见使用深度学习的无线通信．

应用程序

定义并可视化基本事实标签

功能

数据管理和增强

`audioDatastore`	用于收集音频文件的数据存储
`audioDataAugmenter`	增强音频数据

特征提取

`audioFeatureExtractor`	流线音频特征提取
`ivectorSystem`	创建i矢量系统
`openl3Features`	提取OpenL3特性
`pitchnn`	用深度学习神经网络估计音高
`vggishFeatures`	提取VGGish特征

Pretrained网络

`classifySound`	对音频信号中的声音进行分类
`绉`	CREPE神经网络
`crepePreprocess`	CREPE深度学习网络音频预处理
`crepePostprocess`	CREPE深度学习网络的后处理输出
`openl3`	OpenL3神经网络
`openl3Features`	提取OpenL3特性
`openl3Preprocess`	对OpenL3特征提取音频进行预处理
`pitchnn`	用深度学习神经网络估计音高
`vggish`	VGGish神经网络
`vggishFeatures`	提取VGGish特征
`vggishPreprocess`	VGGish特征提取音频预处理
`yamnet`	YAMNet神经网络
`yamnetGraph`	YAMNet AudioSet本体图
`yamnetPreprocess`	对YAMNet分类音频进行预处理

主题

音频应用的深度学习简介(音频工具箱)

了解将深度学习应用于音频应用的常用工具和工作流程。

使用深度学习分类声音(音频工具箱)

训练、验证和测试简单的长短期记忆(LSTM)来分类声音。

预训练音频网络的迁移学习

使用迁移学习重新训练YAMNet，一个预训练的卷积神经网络(CNN)，以分类一组新的音频信号。

使用自定义SincNet层和深度学习的说话人识别

使用自定义深度学习层执行语音识别，该层实现了mel规模的滤波器组。

使用深度学习网络消除语音干扰

训练一个深度学习模型，消除语音中的混响。

Simulink中的语音指令识别万博1manbetx

使用Simulink检测音频中语音命令的存在万博1manbetx^®模型。

基于小波散射和深度学习的语音数字识别

这个例子展示了如何使用机器和深度学习技术对语音数字进行分类。

利用深度学习网络分离鸡尾酒会信息源

这个例子展示了如何使用深度学习网络隔离语音信号。

音频特征的顺序特征选择

本例给出了应用于语音数字识别任务的特征选择的典型工作流程。

学习使用深度学习的预强调过滤器

使用卷积深度网络学习语音识别的预强调滤波器。

特色的例子

使用x向量识别说话人

开发一个x矢量系统来执行说话人识别。

打开实时脚本

使用x向量

扬声器分区化是根据扬声器的身份将音频信号分割成段的过程。它在不事先知道说话人的情况下回答了“谁在什么时候说话”的问题，根据应用情况，也不事先知道说话人的数量。

打开实时脚本

使用内存外音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将随机音高偏移应用于用于训练卷积神经网络(CNN)的音频数据。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于训练循环中使用的任何随机数据增强。当底层音频数据集或训练特征不适合内存时，该工作流也适用。

打开实时脚本

使用内存不足特性训练语音数字识别网络

使用转换后的数据存储在内存不足的听觉频谱图上训练语音数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉频谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特征不适合内存时，工作流是有用的。在这个工作流中，您只提取一次特征，如果您正在迭代深度学习模型设计，这将加快您的工作流。

打开实时脚本

基于Intel MKL-DNN的噪声码生成关键字定位

演示了使用双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)特征提取进行关键字发现的代码生成。具有深度学习支持的MATLAB®Coder™可以生成独立的可执行文件万博1manbetx(.exe)。MATLAB®(.mlx)文件和生成的可执行文件之间的通信发生在异步用户数据报协议(UDP)上。输入的语音信号使用时规显示。掩码显示为围绕关键字YES的标记实例的蓝色矩形。有关MFCC特征提取和深度学习网络训练的更多详细信息，请访问使用MFCC和LSTM网络在噪声中发现关键字。

打开实时脚本

树莓派上噪声代码生成中的关键字发现

演示了在树莓派™上使用双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)特征提取进行关键字发现的代码生成。具有深度学习支持的MATLAB®Coder™可以在树莓派上生成独立的万博1manbetx可执行文件(.elf)。MATLAB®(.mlx)文件和生成的可执行文件之间的通信发生在异步用户数据报协议(UDP)上。输入的语音信号使用时规显示。掩码显示为围绕关键字YES的标记实例的蓝色矩形。有关MFCC特征提取和深度学习网络训练的更多详细信息，请访问使用MFCC和LSTM网络在噪声中发现关键字。

打开实时脚本

基于深度学习的语音指令识别

训练一个深度学习模型，检测音频中语音命令的存在。该示例使用语音命令数据集[1]来训练卷积神经网络来识别给定的命令集。

打开脚本

基于Intel MKL-DNN的语音命令识别代码生成

在Intel®处理器上部署特征提取和卷积神经网络(CNN)用于语音命令识别。为了生成特征提取和网络代码，您使用MATLAB Coder和Intel深度神经网络数学内核库(MKL-DNN)。在本例中，生成的代码是一个MATLAB可执行(MEX)函数，由MATLAB脚本调用，该脚本显示预测的语音命令以及时域信号和听觉频谱图。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开实时脚本

树莓派语音指令识别代码生成

将用于语音命令识别的特征提取和卷积神经网络(CNN)部署到树莓派™。为了生成特征提取和网络代码，您使用MATLAB Coder、MATLAB支持包(用于树莓派硬件)和ARM®计算库。万博1manbetx在本例中，生成的代码是树莓派上的可执行文件，由MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉谱图。MATLAB脚本和树莓派上可执行文件之间的交互是使用用户数据报协议(UDP)处理的。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开实时脚本