机器学习和音频的深度学习
Dataset management, labeling, and augmentation; segmentation and feature extraction for audio, speech, and acoustic applications
Audio Toolbox™提供了为音频,语音和声学应用程序开发机器和深度学习解决方案的功能,包括扬声器识别,语音命令识别,声学场景识别等。万博 尤文图斯
Use
audiodatastore
以并联摄入大型音频数据集和处理文件。Use音频标签通过手动和自动注释音频记录来构建音频数据集。
Use
Audiodataaugmenter
创建内置或自定义信号处理方法的随机管道,以增强和综合音频数据集。Use
audioFeatureExtractor
在共享中间计算的同时提取不同特征的组合。
音频工具箱还提供了对文本到语音和语音文本的第三方API的访问权限,并且包括鉴定的VGGISH和YAMNET模型,以便您可以执行传输学习,分类和提取功能嵌入。使用预审进的网络需要深度学习Toolbox™。
- 数据集管理和标签
摄入,创建和标记大数据集 - 特征提取
MEL频谱图,MFCC,音调,光谱描述符 - 数据增强
Augmentation pipelines, shift pitch and time, stretch time, control volume and noise - 分割
检测和隔离语音和其他声音 - Pretrained Networks
转移学习,声音分类,功能嵌入 - 语音转录和综合
使用第三方API进行文本到语音和语音到文本 - Code Generation and GPU Support
Generate portable C/C++/MEX functions and use GPUs to deploy or accelerate processing