机器学习和深度学习的音频

数据集管理、标注和扩充;用于音频、语音和声学应用的分割和特征提取

Audio Toolbox™提供了为音频、语音和声学应用程序开发机器和深度学习解决方案的功能，包括扬声器识别、语音命令识别、声学场景识别等。万博尤文图斯

使用audioDatastore接收大型音频数据集并并行处理文件。
使用音频贴标签机通过手动和自动注释音频记录来构建音频数据集。
使用audioDataAugmenter创建内置或自定义信号处理方法的随机管道，用于增强和合成音频数据集。
使用audioFeatureExtractor在共享中间计算的同时提取不同特征的组合。

Audio Toolbox还提供了对文本到语音和语音到文本的第三方api的访问，它包括预先训练的VGGish和YAMNet模型，以便您可以执行迁移学习，对声音进行分类，并提取特征嵌入。使用预先训练的网络需要深度学习工具箱™。

数据集管理和标记
获取、创建和标记大型数据集
特征提取
Mel谱图，MFCC，音高，谱描述符
数据增加
增强管路，变速节距和时间，拉伸时间，控制音量和噪音
分割
检测和隔离语音和其他声音
Pretrained网络
迁移学习，声音分类，特征嵌入
语音转录与合成
使用第三方api实现文本到语音和语音到文本
代码生成和GPU支持万博1manbetx
生成可移植的C/ c++ /MEX函数，并使用gpu部署或加速处理

特色的例子

基于深度学习的语音指令识别

训练一个深度学习模型，检测语音指令的存在。该示例使用语音命令数据集[1]训练卷积神经网络来识别给定的命令集。

打开脚本

用Intel MKL-DNN生成语音指令识别代码

在Intel®处理器上部署特征提取和卷积神经网络(CNN)用于语音命令识别。要生成特征提取和网络代码，您可以使用MATLAB编码器和英特尔深度神经网络数学内核库(MKL-DNN)。在本例中，生成的代码是一个MATLAB可执行(MEX)函数，由一个MATLAB脚本调用，该脚本显示预测的语音命令以及时域信号和听觉谱图。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本

树莓派语音指令识别代码的生成

采用特征提取和卷积神经网络(CNN)对Raspberry Pi™进行语音命令识别。为了生成特征提取和网络代码，您使用MATLAB Coder, MATLAB支持包树莓派硬件，和ARM®计算库。万博1manbetx在本例中，生成的代码是Raspberry Pi上的可执行文件，它由一个MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉声谱图。MATLAB脚本和树莓派上的可执行文件之间的交互是使用用户数据报协议(UDP)处理的。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本

基于MFCC和LSTM网络的噪声关键字识别

利用深度学习网络在嘈杂语音中识别关键字。具体来说，该示例使用了双向长短期记忆(BiLSTM)网络和mel频率倒频谱系数(MFCC)。

打开生活的脚本

使用深度学习网络去噪语音

使用深度学习网络降噪语音信号。这个例子比较了应用于同一任务的两种类型的网络:全连接网络和卷积网络。

打开生活的脚本

使用深度学习网络的鸡尾酒会源分离

使用深度学习网络分离语音信号。

打开生活的脚本

训练生成对抗网络(GAN)进行声音合成

训练并使用生成式对抗网络(GAN)来生成声音。

打开脚本

使用音高和MFCC识别说话人

演示了一种机器学习方法，基于从录音语音中提取的特征来识别人。用于训练分类器的特征是语音浊音段的音高和mel频率倒频谱系数(MFCC)。这是一个封闭的扬声器识别:将被测扬声器的音频与所有可用的扬声器模型(有限集)进行比较，并返回最接近的匹配。

打开生活的脚本

使用i-Vectors进行说话人验证

说话人验证或认证的任务是确认说话人的身份是否属实。多年来，发言人验证一直是一个活跃的研究领域。早期的一个性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]对声学特征(通常是mfcc)。例如，请参见使用高斯混合模型的扬声器验证。GMM-UBM系统的主要困难之一涉及会话间的可变性。联合因素分析(JFA)被提议通过分别模拟说话间变异性和频道或会话变异性[2][3]来补偿这种变异性。然而，[4]发现JFA中的通道因子也包含了关于说话人的信息，并提出将通道和说话人空间合并成一个总的可变性空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异性，然后是一个评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)模型代替余弦相似度评分。[11]和[12]提出了一种将i向量高斯化的方法，从而在PLDA中做高斯假设，简称G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

音频工具箱文档

万博1manbetx

尝试MATLAB, Si万博1manbetxmulink和其他产品s manbetx 845

得到审判现在