使用深度学习的音频处理

扩展深度学习工作流程与音频和语音处理应用程序

通过使用深度学习工具箱™和音频工具箱™，将深度学习应用于音频和语音处理应用。有关信号处理应用，请参阅利用深度学习进行信号处理．有关无线通讯的应用，请参阅使用深度学习的无线通信．

应用程序

定义和可视化地面真相标签

功能

数据管理和增强

`audioDatastore`	用于收集音频文件的数据存储
`audioDataAugmenter`	增加音频数据

特征提取

`audioFeatureExtractor`	简化音频特征提取
`ivectorSystem`	创建矢量i系统
`openl3Features`	提取OpenL3特性
`pitchnn`	深度学习神经网络估计基音
`vggishFeatures`	提取VGGish特性

Pretrained网络

`classifySound`	对音频信号中的声音进行分类
`绉`	绉神经网络
`crepePreprocess`	CREPE深度学习网络的音频预处理
`crepePostprocess`	CREPE深度学习网络的后处理输出
`openl3`	OpenL3神经网络
`openl3Features`	提取OpenL3特性
`openl3Preprocess`	预处理音频用于OpenL3特征提取
`pitchnn`	深度学习神经网络估计基音
`vggish`	VGGish神经网络
`vggishFeatures`	提取VGGish特性
`vggishPreprocess`	预处理音频用于VGGish特征提取
`yamnet`	YAMNet神经网络
`yamnetGraph`	YAMNet AudioSet本体图
`yamnetPreprocess`	预处理音频，用于YAMNet分类

主题

音频应用深度学习简介(音频工具箱)

学习将深度学习应用于音频应用的常用工具和工作流程。

使用深度学习分类声音(音频工具箱)

训练、验证和测试一个简单的长短期记忆(LSTM)来分类声音。

通过预先训练的音频网络进行迁移学习

使用迁移学习来重新训练YAMNet，一个预先训练的卷积神经网络(CNN)，对一组新的音频信号进行分类。

使用自定义自信网络层和深度学习识别说话人

使用自定义深度学习层进行语音识别，该层实现了梅尔尺度滤波器组。

使用深度学习网络消除语音干扰

训练一个深度学习模型，消除语音中的混响。

Simulink中的语音命令识别万博1manbetx

使用Simulink检测音频中语音命令的存在万博1manbetx^®模型。

基于小波散射和深度学习的语音数字识别

这个例子展示了如何使用机器和深度学习技术对语音数字进行分类。

使用深度学习网络的鸡尾酒会源分离

这个例子展示了如何使用深度学习网络分离语音信号。

音频特征的顺序特征选择

这个例子展示了一个典型的语音数字识别特征选择的工作流程。

使用深度学习学习前置重点过滤器

使用卷积深度网络学习语音识别的预强调过滤器。

特色的例子

使用x向量识别说话人

开发一个x矢量系统来进行说话人识别。

打开生活的脚本

演讲者日记使用x向量

讲话者日记是根据讲话者身份将音频信号分成若干段的过程。它在不知道说话者的情况下回答了“谁在什么时候说话”的问题，根据应用程序，也不知道说话者的数量。

打开生活的脚本

使用内存不足的音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将对用于训练卷积神经网络(CNN)的音频数据应用随机音高移位。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于在训练循环中使用的任何随机数据增强。当底层音频数据集或训练特性不适合内存时，该工作流也适用。

打开生活的脚本

利用内存不足特征训练语音数字识别网络

使用转换后的数据存储，在内存不足的听觉谱图上训练口语数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉光谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特性不适合内存时，工作流是有用的。在这个工作流中，您只提取一次特征，如果您在深度学习模型设计上进行迭代，这将加快您的工作流。

打开生活的脚本

英特尔MKL-DNN噪声码生成中的关键字识别

演示使用双向长短期记忆(BiLSTM)网络和mel频率倒频谱系数(MFCC)特征提取来识别关键字的代码生成。带深度学习支持的MATLAB®Coder™能够生成独立的可执行文件(万博1manbetx.exe)。MATLAB®(.mlx)文件与生成的可执行文件之间的通信通过异步用户数据报协议(UDP)进行。输入的语音信号是用时间显示器显示的。一个掩码显示为一个围绕关键字YES的被标记实例的蓝色矩形。有关MFCC特征提取和深度学习网络训练的更多细节，请访问MFCC和LSTM网络噪声中的关键字识别。

打开生活的脚本

树莓Pi噪声码生成中的关键字识别

演示了在Raspberry Pi™上使用双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)特征提取来识别关键字的代码生成。MATLAB®Coder™与深度学习支持，使生成一个独立的可执行文件万博1manbetx(.elf)树莓派。MATLAB®(.mlx)文件与生成的可执行文件之间的通信通过异步用户数据报协议(UDP)进行。输入的语音信号是用时间显示器显示的。一个掩码显示为一个围绕关键字YES的被标记实例的蓝色矩形。有关MFCC特征提取和深度学习网络训练的更多细节，请访问MFCC和LSTM网络噪声中的关键字识别。

打开生活的脚本

基于深度学习的语音指令识别

训练一个深度学习模型，检测语音指令的存在。该示例使用语音命令数据集[1]训练卷积神经网络来识别给定的命令集。

打开脚本

用Intel MKL-DNN生成语音指令识别代码

在Intel®处理器上部署特征提取和卷积神经网络(CNN)用于语音命令识别。要生成特征提取和网络代码，您可以使用MATLAB编码器和英特尔深度神经网络数学内核库(MKL-DNN)。在本例中，生成的代码是一个MATLAB可执行(MEX)函数，由一个MATLAB脚本调用，该脚本显示预测的语音命令以及时域信号和听觉谱图。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本

树莓派语音指令识别代码的生成

采用特征提取和卷积神经网络(CNN)对Raspberry Pi™进行语音命令识别。为了生成特征提取和网络代码，您使用MATLAB Coder, MATLAB支持包树莓派硬件，和ARM®计算库。万博1manbetx在本例中，生成的代码是Raspberry Pi上的可执行文件，它由一个MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉声谱图。MATLAB脚本和树莓派上的可执行文件之间的交互是使用用户数据报协议(UDP)处理的。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本