主要内容

使用音频贴标程序标记音频

音符贴标程序应用程序,让您交互式定义和可视化地面真相标签的音频数据集。这个示例展示了如何创建标签定义,然后交互式地为一组音频文件添加标签。该示例还展示了如何导出标记为ground-truth的数据,然后可以使用这些数据audiodatastore.训练机器学习系统。

加载未标记的数据

  1. 打开音符贴标程序,在matlab®命令提示符,输入:

    Audiolabeler.

  2. 此示例使用Audio Toolbox™附带的音频文件。要在MATLAB命令提示符处找到系统上的文件路径,请输入:

    fullfile(matlabroot,'工具箱''声音的''样品'

    要从文件加载音频,请单击加载>音频文件夹并选择包含要标记的音频文件的文件夹。

定义和分配标签

文件级标签

音频样本包括音乐,语音和氛围。创建文件级标签,该标签定义音频文件的内容音乐演讲环境, 或者未知, 点击。指定标签名称作为内容, 这数据类型作为分类,而且类别作为音乐演讲环境, 或者未知。设定默认值标签定义未知

所有音频文件中的所有音频文件数据浏览器现在与之相关内容标签的名字。单击,收听选中的音频文件数据浏览器并确认它是一个音乐文件,请单击。设置值的值内容标签,点击未知在里面文件标签面板和选择音乐从下拉菜单。

所选音频文件现在具有标签名称内容价值音乐分配给它。你可以继续设置内容通过选择文件中的每个文件的值数据浏览器然后从中选择一个值文件标签控制板。

区域级标签

您可以手动定义区域级标签或使用提供的自动化算法。音频工具箱包括用于语音检测和语音到文本转录的自动标记算法。

笔记

要启用自动语音到文本转录,您必须下载并设置语音到文本转录功能。下载并设置语音到文本转录功能后,发言给文本自动化算法在ToolStrip上显示为选项。

选择counting-16-44p1-mono-15secs.wav来自数据浏览器

创建区域级标签,指示检测到语音,首先选择言语探测器来自自动化部分。您可以使用该语音检测算法控制语音检测算法窗口长度合并区域内参数。使用语音检测算法的默认参数。选择ROI标签并选择所选音频文件的标签区域,请选择

关上言语探测器标签。您可以纠正或微调自动生成演说道通过从ROI栏中选择ROI的区域,然后拖动该区域的边缘。ROI栏直接位于ROI标签的右侧。选择区域后,单击只播放所选区域,使您能够验证所选区域是否捕获所有相关的听觉信息。

如果您已设置语音到文本转录服务,请选择发言给文本来自自动化部分。您可以使用特定于所选服务的名称值对选项来控制语音到文本转录。此示例使用IBM®服务并指定没有其他选项。

从转录服务返回的ROI标签是具有开始和结束点的字符串。开始和终点不完全对应于手动校正的语音检测区域的开始和终点。您可以纠正终点语音通信通过选择该区域然后拖动该区域的边缘来标记标签。转录服务将“两个”分类为“四”,“四”为“为”,“和”十“为”那样“。您可以通过选择该区域来更正字符串,然后输入新字符串。

单击创建另一个区域级标签在里面ROI标签控制板。放标签名称VUV., 放数据类型分类, 和类别浊音清音

默认情况下,波形查看器显示整个文件。显示用于缩放和平移的工具,将悬停在绘图的右上角。放大音频文件的前五秒钟。

当您在图中选择一个区域然后悬停在任何两个ROI条上时,将出现区域的阴影。将所选区域分配给类别浊音, 点击在这一点语音通信标签栏。徘徊在这边VUV.标签栏,然后单击阴影并选择浊音

接下来的两个词,“两个”和“三”包含浊音和清音语音。在绘图上选择每个语音区域,将鼠标悬停在VUV标签栏上,然后选择该区域的正确类别。

导出标签定义

您可以将标签定义导出为MAT文件或MATLAB脚本。维护标签定义使用户和会话之间的标记一致标记。选择出口>标签定义>到文件

标签被保存为一系列signallabledefinition.对象。在下次会话中,您可以通过选择来导入标签定义进口>标签定义>从文件

导出标记的音频数据

您可以将标记的信号导出到文件或工作区。选择出口>标签>到工作空间

音符贴标程序创造一个LabeledSignalSet.对象命名LabeledSet_HHMMSS,在那里HHMMSS是否在小时,分钟和秒内创建对象的时间。

labeledset_104620
LabelEdSet_104620 =带有属性的标签:源:{29×1个单元格} nummembers:29 querfemments:“固有”标签:[29×4表]描述:“”“”使用labledefinitionshierarchy查看标签和sublabels列表。使用setlabelvalue将数据添加到集合。

您创建的标签将保存为表格标签财产。

labeledset_142356.Labels.
ans = 29×4表内容SpeechDetected SpeechContent VUV  ________ ______________ _____________ ___________ C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Ambiance-16-44p1-mono-12secs.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ AudioArray-16-16-4channels-20secs.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ ChurchImpulseResponse-16-44p1-mono-5secs.wav未知{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\点击- 16 - 44 - p1 - mono - 0.2 - secs.wav氛围{0×2表}{0×2表}}{0×2表C: \程序文件\ MATLAB工具箱\ R2019b \ \音响\ samples \ Counting-16-44p1-mono-15secs.wav演讲{10×2表}{10×2表}{5×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Engine-16-44p1-stereo-20sec.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ FemaleSpeech-16-8-mono-3secs.wav演讲{0×2table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif music { 0×2 table} { 0×2 table} {0×2 table}

与标签关联的文件名以单元格数组的形式保存到来源财产。

labeledset_104620.source.
ans = 29×1个单元阵列{c:\ program files \ matlab \ r2019b \ toolbox \ audio \ samples \ gamance-16-44p1-mono-12secs.wav'} {'c:\ program files \ matlab \ r2019b \到olbox\audio\samples\AudioArray-16-16-4channels-20secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ChurchImpulseResponse-16-44p1-mono-5secs.wav'} {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Click-16-44p1-mono-0.2secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Counting-16-44p1-mono-15secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Engine-16-44p1-stereo-20sec.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FemaleSpeech-16-8-mono-3secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif' }

为深度学习工作流程准备音频数据存储

要继续深入学习或机器学习工作流,请使用audiodatastore.。使用Audio数据存储使您可以应用于机器学习应用程序的功能,例如spliteachlabel.spliteachlabel.使您可以将数据拆分为列车和测试集。

为标记信号集创建一个音频数据存储。将音频文件的位置指定为第一个参数audiodatastore.并设置了标签财产audiodatastore.到了标签标记信号集的属性。

广告= audiodataStore(labeledset_104620.source,'标签',labeledset_104620.labels)

广告= audioDataStore具有属性:文件:{'... \ Toolbox \ Audio \ Samples \ Ambiance-16-44p1-mono-12secs.wav';'... \ toolbox \ audio \ samples \ audioArray-16-16-4Channels-20secs.wav';'... \ toolbox \ audio \ samples \ churchimpulseresponse-16-44p1-mono-5secs.wav'...和26更多}标签:29-by-4表refteratefilesystemroots:{} outputdatatype:'double'

称呼counteanceLabel.并指定这一点内容表变量计算标记为的文件数环境音乐演讲, 或者未知

countAckeLabel(广告,'tablevariable''内容'
ans = 4×2表内容计数________ _____氛围13音乐9音乐9语音6未知1

有关在机器学习或深度学习工作流中使用标记的音频数据的示例,请参阅:

也可以看看

||||