机器学习和音频深度学习

数据集管理、标记和扩充;分割和特征提取的音频，语音和声学应用

Audio Toolbox™提供了使用机器学习和深度学习来开发音频、语音和声学应用程序的功能。使用audioDatastore管理和加载大型数据集。使用音频贴标签机交互定义和可视化地面实况。使用audioDataAugmenter使用音频专用增量技术放大的数据集。使用audioFeatureExtractor创建高效和模块化的特征提取管道。

应用程序

音频贴标签机

定义和可视化地面实况标签

住编辑任务

提取音频功能

流线音频特征提取在现场编辑器

功能

展开全部

音频I / O

audioDatastore 用于收集音频文件的数据存储

倒谱分析

`mfcc`	提取音频信号的mfcc、log energy、delta和delta
`gtcc`	伽马通提取倒谱系数，数的能量，DELTA和delta-Δ
`cepstralFeatureExtractor`	提取音频段倒谱特征

数据增加

`audioDataAugmenter`	增强的音频数据
`audioTimeScaler`	申请时间缩放音频流
`shiftPitch`	转换音频音调
`stretchAudio`	时间拉伸音频

域转换

`erb2hz`	将等效矩形带宽(ERB)转换为赫兹
`bark2hz`	从树皮鳞片转换成赫兹
`mel2hz`	从梅尔刻度转换到赫兹
`hz2erb`	转换从赫兹到等效矩形带宽(ERB)规模
`hz2bark`	转换从赫兹树皮规模
`hz2mel`	从赫兹转换为美度
`phon2sone`	把“丰”转换成“颂”
`sone2phon`	从sone转换为phon

滤波器的设计

designAuditoryFilterBank 设计听觉滤波器组

响度

`integratedLoudness`	测量集成响度和响度范围
`loudnessMeter`	标准兼容响度测量

周期性和调和性

`harmonicRatio`	谐波比
`沥青`	估计音频信号的基频

分割

`detectSpeech`	检测语音信号的边界
`voiceActivityDetector`	检测语音信号中是否存在语音

光谱描述符

`audioFeatureExtractor`	流线型音频特征提取
`spectralCentroid`	频谱质心为音频信号和听觉谱图
`spectralCrest`	用于音频信号和听觉谱图的波峰
`spectralDecrease`	音频信号和听觉谱图的谱下降
`spectralEntropy`	用于音频信号和听觉谱图的谱熵
`spectralFlatness`	用于音频信号和听觉光谱图的光谱平直度
`spectralFlux`	音频信号和听觉谱图光谱通量
`spectralKurtosis`	用于音频信号和听觉谱图的光谱峰度
`spectralRolloffPoint`	用于音频信号和听觉谱图的光谱衰减点
`spectralSkewness`	谱偏斜的音频信号和听觉谱图
`spectralSlope`	用于音频信号和听觉光谱图的光谱斜率
`spectralSpread`	频谱扩展的音频信号和听觉谱图

变换和Windows

`melSpectrogram`	梅尔频谱
`kbdwin`	Kaiser-Bessel-derived窗口
`多层螺旋ct`	改进离散余弦变换
`imdct`	逆改进离散余弦变换

块

语音活动检测器	检测语音信号中是否存在语音
倒谱特征提取	提取音频段倒谱特征
响度计	标准兼容响度测量

主题

标签音频使用音频贴标机

交互式地定义和可视化音频数据集的基本事实标签。

“语音转录

请在MATLAB语音到文本转^®使用第三方基于云的api。

文本到语音转换

使用第三方基于云的api在MATLAB中执行文本到语音的转换。

光谱描述符

光谱描述符的概述和应用。

特色的例子

使用深度学习的语音命令识别

训练一个深度学习模型来检测语音命令的存在。本例使用语音命令数据集[1]训练卷积神经网络识别给定的一组命令。

打开脚本

扬声器识别使用音高和MFCC

演示机器学习的方法来识别基于从录制的语音提取的特征的人。用于训练分类器的特征是语音的有声段和梅尔倒频谱系数（MFCC）的音高。这是一个闭集说话人识别：扬声器测试音频免受一切可用的扬声器的机型相比（有限集）和最接近的匹配返回。

打开生活的脚本

酒会源分离使用Deep学习网络

使用深度学习网络分离语音信号。

打开生活的脚本

利用MFCC和LSTM网络对噪声进行关键字检测

利用深度学习网络识别含噪语音中的关键字。特别地，这个例子使用了双向长短时记忆(BiLSTM)网络和mel-频率倒谱系数(MFCC)。

打开生活的脚本

降噪语音使用Deep学习网络

采用深学习网络降噪语音信号。该实施例比较了两种类型的施加到相同的任务的网络：完全连接，和卷积。

打开生活的脚本

训练生成式对抗网络(GAN)进行声音合成

训练并使用生成式对抗网络(GAN)来生成声音。

打开脚本

语音活动检测噪声中使用Deep学习

检测采用深度学习低信号噪声环境下的语音区域。该示例使用语音命令数据集来训练双向长短期记忆（BiLSTM）网络检测到语音活动。

打开生活的脚本

使用LSTM网络对性别进行分类

分类采用深学习讲话者的性别。该示例使用一个双向长短期存储器（BiLSTM）网络和伽马通倒频谱系数（GTCC），俯仰，谐波比，和若干频谱形状描述符。

打开生活的脚本

基于小波分解和深度学习的语音数字识别

使用机器和深度学习技术对语音数字进行分类。在本例中，使用小波时间散射和支持向量机(SVM)以及长短时记忆(LSTM)网络进行分类。万博1manbetx您还可以应用贝叶斯优化来确定合适的超参数，以提高LSTM网络的准确性。此外，该例子还演示了一种使用深度卷积神经网络(CNN)和mel-频率谱图的方法。

打开生活的脚本

音乐流派分类使用小波时散射

分类小波时间散射和音频数据存储音乐节选的风格。在小波散射，数据通过一系列小波变换，非线性，和平均化的所述数据的生产低方差表示传播。然后将这些低方差表示被用作输入到分类器。

打开脚本

对于音频功能顺序特征选择

语音数字识别任务中典型的特征选择工作流程。

打开生活的脚本

语音情感识别

说明了一个简单的语音情感识别(SER)系统使用的BiLSTM网络。首先下载数据集，然后在各个文件上测试经过训练的网络。该网络是在一个小型德语数据库[1]上训练的。

打开生活的脚本

利用后期融合进行声场景识别

建立了一个多模型的声场景识别后期融合系统。该示例使用mel谱图训练卷积神经网络(CNN)，使用小波散射训练集成分类器。该示例使用TUT数据集进行训练和评估[1]。

打开脚本

说话人确认使用高斯混合模型

音箱验证，身份验证，是验证一个给定的声音片段属于给定扬声器的任务。在说话者确认系统中，存在一个未知的集合中的所有其他扬声器，使得发声属于验证目标的可能性相比，它不可能性。这与说话人识别任务，其中计算每个扬声器的可能性，和那些可能对比度进行比较。两个扬声器检验和说话者识别可以是文本依赖性或文本独立的。在此例中，创建使用高斯混合模型/通用背景模型（GMM-UBM）与文本相关的说话者验证系统。

打开生活的脚本

说话人确认使用I-矢量

说话人验证(或身份验证)的任务是确认说话人的身份是他们声称要成为的人。多年来，说话人验证一直是一个活跃的研究领域。早期的性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]对声学特征(通常是mfcc)。有关示例，请参见使用高斯混合模型的说话人验证。GMM-UBM系统的主要难点之一是会话间的可变性。联合因素分析(JFA)被提议通过单独建模说话人之间的差异性和通道或会话的差异性[2][3]来补偿这种差异性。然而，[4]发现JFA中的信道因子也包含了关于音箱的信息，并提出将信道和音箱空间合并成一个全变率空间。然后，使用后端过程(如线性判别分析(LDA)和类内协方差标准化(WCCN))对会话间的可变性进行补偿，然后进行评分(如余弦相似度评分)。[5]提出用概率LDA (PLDA)代替余弦相似度评分。虽然i-vector最初被提出用于说话人验证，但它们已经被应用于许多问题，如语言识别、说话人二值化、情感识别、年龄估计和反欺骗干扰[10]。 Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本