机器学习和音频深度学习

数据集管理、标记和扩充;分割和特征提取的音频,语音和声学应用

Audio Toolbox™提供了使用机器学习和深度学习来开发音频、语音和声学应用程序的功能。使用audioDatastore管理和加载大型数据集。使用音频贴标签机交互定义和可视化地面实况。使用audioDataAugmenter使用音频专用增量技术放大的数据集。使用audioFeatureExtractor创建高效和模块化的特征提取管道。

应用程序

音频贴标签机 定义和可视化地面实况标签

住编辑任务

提取音频功能 流线音频特征提取在现场编辑器

功能

展开全部

audioDatastore 用于收集音频文件的数据存储
mfcc 提取音频信号的mfcc、log energy、delta和delta
gtcc 伽马通提取倒谱系数,数的能量,DELTA和delta-Δ
cepstralFeatureExtractor 提取音频段倒谱特征
audioDataAugmenter 增强的音频数据
audioTimeScaler 申请时间缩放音频流
shiftPitch 转换音频音调
stretchAudio 时间拉伸音频
erb2hz 将等效矩形带宽(ERB)转换为赫兹
bark2hz 从树皮鳞片转换成赫兹
mel2hz 从梅尔刻度转换到赫兹
hz2erb 转换从赫兹到等效矩形带宽(ERB)规模
hz2bark 转换从赫兹树皮规模
hz2mel 从赫兹转换为美度
phon2sone 把“丰”转换成“颂”
sone2phon 从sone转换为phon
designAuditoryFilterBank 设计听觉滤波器组
integratedLoudness 测量集成响度和响度范围
loudnessMeter 标准兼容响度测量
harmonicRatio 谐波比
沥青 估计音频信号的基频
detectSpeech 检测语音信号的边界
voiceActivityDetector 检测语音信号中是否存在语音
audioFeatureExtractor 流线型音频特征提取
spectralCentroid 频谱质心为音频信号和听觉谱图
spectralCrest 用于音频信号和听觉谱图的波峰
spectralDecrease 音频信号和听觉谱图的谱下降
spectralEntropy 用于音频信号和听觉谱图的谱熵
spectralFlatness 用于音频信号和听觉光谱图的光谱平直度
spectralFlux 音频信号和听觉谱图光谱通量
spectralKurtosis 用于音频信号和听觉谱图的光谱峰度
spectralRolloffPoint 用于音频信号和听觉谱图的光谱衰减点
spectralSkewness 谱偏斜的音频信号和听觉谱图
spectralSlope 用于音频信号和听觉光谱图的光谱斜率
spectralSpread 频谱扩展的音频信号和听觉谱图
melSpectrogram 梅尔频谱
kbdwin Kaiser-Bessel-derived窗口
多层螺旋ct 改进离散余弦变换
imdct 逆改进离散余弦变换

语音活动检测器 检测语音信号中是否存在语音
倒谱特征提取 提取音频段倒谱特征
响度计 标准兼容响度测量

主题

标签音频使用音频贴标机

交互式地定义和可视化音频数据集的基本事实标签。

“语音转录

请在MATLAB语音到文本转®使用第三方基于云的api。

文本到语音转换

使用第三方基于云的api在MATLAB中执行文本到语音的转换。

光谱描述符

光谱描述符的概述和应用。

特色的例子