标签音频使用音频贴标机

音频贴标机应用程序可以通过交互定义和可视化音频数据集的地面实况标签。这个例子展示了如何创建标签定义,然后交互标注一组音频文件。这个例子也说明了如何导出标地面实况数据,然后你就可以与使用audioDatastore训练机器学习系统。

加载标签数据

  1. 要打开音频贴标机,在MATLAB®命令提示符下,输入:

    audioLabeler

  2. 本例中使用附带的音频工具箱™音频文件。要查找您系统上的文件路径,在MATLAB命令提示符下输入:

    完整文件(matlabroot,'工具箱'“音频”“样品”

    从文件,点击加载音频加载>音频文件夹并选择包含要标记的音频文件的文件夹。

定义和分配标签

文件级标签

音频样本包括音乐,语音和氛围。要创建一个文件级标签的音频文件的内容定义为音乐言语环境, 要么未知,点击。指定标签名称内容中,数据类型明确的分类音乐言语环境, 要么未知。设置默认值标签定义的未知

在所有的音频文件数据浏览器现正与相关内容标签名称。要收听所选音频文件数据浏览器并确认这是一个音乐文件,单击。要设置的值内容标签,单击未知在里面文件标签面板,选择音乐从下拉菜单中。

所选择的音频文件,现在有标签名称内容与价值音乐分配给它。您可以继续设置内容通过在选择一个文件的每个文件值数据浏览器然后选择从一个值文件标签面板。

区级标签

可以手动或通过使用提供的自动算法限定区域级标签。音频工具箱包括用于语音检测和语音到文本转录自动贴标签算法。

注意

要启用自动语音到文本的转录,你必须下载并设置语音到文本转功能。一旦你下载并设置了语音到文本的转录功能外,语音到文本自动化算法出现在工具条的选项。

选择计数-16-44p1单 - 15secs.wav来自数据浏览器

要创建一个区域级的标签,表明如果检测到语音,第一选择话音检测来自自动化部分。您可以使用控制语音检测算法窗口长度(S)合并区域内的(一个或多个)参数。使用默认参数的语音检测算法。要创建一个投资回报率的标签,并选择音频文件的标签区域,选择

关上话音检测标签。您可以更正或微调的自动生成SpeechDetected通过从ROI栏中选择ROI,然后拖动区域的边缘区域。投资回报率栏直接到ROI标签的右侧。当选择的区域中,点击只播放选择的区域,使您能够验证是否选中区域捕获所有相关的听觉信息。

如果你已经设置了语音到文本的转录服务,请选择语音到文本来自自动化部分。您可以使用名称 - 值对选项的具体到您所选择的服务控制语音到文本的转录。此示例使用IBM®服务和指定没有其他选项。

从转录服务返回的ROI标签与起点和终点的字符串。开始和结束点不完全对应于手动校正语音检测区域的起点和终点。您可以矫正的端点SpeechContentROI标签通过选择区域,然后拖动区域的边缘。转录服务误判的话“两”为“到”,“四大”作为“”和“十”是“然后”。您可以通过选择区域,然后进入一个新的字符串正确的字符串。

请通过单击另一个区域级标签在里面ROI标签面板。组标签名称VUV,组数据类型明确的分类浊音清音

默认情况下,波形查看器显示整个文件。要显示缩放和平移,悬停在情节的右上角的工具。放大音频文件的第一个五秒钟。

当你在剧情选择一个区域,然后悬停在两个ROI条中的任何,该区域出现的阴影。到所选择的区域分配给类别浊音,点击之一SpeechContent标签栏。将鼠标悬停在VUV标签栏,然后单击阴影,然后选择浊音

接下来的两个词,“二”,“三”,同时包含有声和无声的讲话。选择演讲的每一个区域上的情节,将鼠标悬停在真空紫外标签栏,并选择正确的类别为该区域。

出口标签定义

您可以定义标签定义导出为MAT文件或MATLAB脚本。维护标签定义,使用户和会话之间是一致的标签。选择出口>标签定义>到文件

这些标签被保存为阵列signalLabelDefinition对象。在你的下一次会议,你可以导入通过选择标签定义进口>标签定义>从文件

出口标记的音频数据

你可以标记信号设置导出到文件或到您的工作空间。选择出口>标签>为了工作区

音频贴标机创建labeledSignalSet对象命名labeledSet_HHMMSS,其中HHMMSS是对象以小时,分钟和秒创建时间。

labeledSet_104620
labeledSet_104620 = labeledSignalSet与属性:来源:{29×1细胞} NumMembers:29 TimeInformation: “固有的” 标签:[29×4表]说明: “” 使用labelDefinitionsHierarchy看到标签和子标签的列表。使用setLabelValue将数据添加到该集合。

您创建的标签保存为一个表来标签属性。

labeledSet_142356.Labels
ANS = 29×4表的内容SpeechDetected SpeechContent VUV ________ ______________ _____________ ___________ C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\气氛-16-44p1单 -  12secs.wav氛围{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\ AudioArray-16-16-4channels-20secs.wav氛围{0×2表} {0×2表}{0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\ ChurchImpulseResponse-16-44p1单 -  5secs.wav未知{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\点击16-44p1单 -  0.2secs.wav氛围{0×2表} {0×2表} {0×2表}℃:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\计数-16-44p1单 -  15secs.wav语音{10×2表} {10×2表} {5×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\引擎-16-44p1-立体20sec.wav氛围{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b\工具箱\音频\样本\ FemaleSpeech-16-8单 -  3secs.wAV讲话{0×2台} {0×2台} {0×2台} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\ FunkyDrums-44p1立体声-25secs.mp3音乐{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\ FunkyDrums-48-立体25secs.mp3音乐{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\ Heli_16ch_ACN_SN3D.wav氛围{0×2表} {0×2表} {0×2表} C:\程序文件\ MATLAB \ R2019b \工具箱\音频\样本\ JetAirplane-16-11p025单 -  16secs.wav氛围{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \R2019b \工具箱\音频\样本\笑声-16-8  - 单 -  4secs.wav氛围{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\ MainStreetOne-24-96-立体63secs.wav氛围{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\NoisySpeech-16-22p5单 -  5secs.wav语音{0×2表} {0×2表} {0×2表} C:\ Program Files文件\ MATLAB \ R2019b \至olbox\audio\samples\Rainbow-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif music { 0×2 table} { 0×2 table} {0×2 table}

与标签相关的文件名保存为一个单元阵列的资源属性。

labeledSet_104620.Source
ANS = 29×1单元阵列{ 'C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\气氛-16-44p1单 -  12secs.wav'} {'C:\ Program Files文件\ MATLAB \ R2019b \至olbox\audio\samples\AudioArray-16-16-4channels-20secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ChurchImpulseResponse-16-44p1-mono-5secs.wav'} {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Click-16-44p1-mono-0.2secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Counting-16-44p1-mono-15secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Engine-16-44p1-stereo-20sec.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FemaleSpeech-16-8-mono-3secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif' }

准备音频数据存储深学习工作流程

要继续以深厚的学习或学习机的工作流程,使用audioDatastore。使用音频数据存储使您能够应用能力,是常见的机器学习应用,如splitEachLabelsplitEachLabel可让您将数据分成训练和测试集。

为您的标记信号集创建音频数据存储。指定音频文件的位置作为第一个参数audioDatastore并设置标签财产audioDatastore标签标记信号集合的属性。

ADS = audioDatastore(labeledSet_104620.Source,'标签',labeledSet_104620.Labels)

ADS = audioDatastore具有属性:文件:{ '... \工具箱\音频\样本\气氛-16-44p1单 -  12secs.wav';'... \工具箱\音频\样本\ AudioArray-16-16-4channels-20secs.wav';'... \工具箱\音频\样本\ ChurchImpulseResponse-16-44p1单 -  5secs.wav' ...和26更}标签:29×4表AlternateFileSystemRoots:{} OutputDataType: '双'

呼叫countEachLabel并指定内容表变量来计算被标记为文件的数量环境音乐言语, 要么未知

countEachLabel(ADS,'TableVariable''内容'
ANS = 4×2表的内容计数________ _____氛围13音乐9语音6未知1

用于在机器学习或深学习工作流程中使用标记的音频数据的实例,参见:

也可以看看

||||