音频贴标签机

定义并可视化基本事实标签

描述

音频贴标签机app使您能够在区域级别和文件级别标记ground-truth数据。

使用该应用程序,你可以:

  • 为一致和快速标记创建标签定义。

  • 在回放过程中可视化时域波形。

  • 交互式地在文件级和区域级指定标签。您可以通过直接绘制时域波形来指定区域。

  • 记录新的音频添加到您的数据集。

  • 对检测到的语音区域进行自动标记。

  • 使用第三方语音到文本转录服务实现自动单词标记。看到“语音转录为更多的信息。

应用程序将数据导出为labeledSignalSet对象。您可以使用labeledSignalSet训练网络、分类器或分析数据和报告统计数据。

打开音频标签应用程序

  • MATLAB®将来发布:应用程序选项卡,在信号处理与通信,点击app图标。

  • MATLAB命令提示符:回车audioLabeler

例子

全部展开

在本例中,您将为音频信号创建一个逻辑掩码,其中1对应于“yes”的发音,而0对应于“yes”的不发音。要创建掩码,可以使用IBM™speech-to-text API音频贴标签机应用程序。

此示例要求您安装“语音转录功能。

听你想要标记的音频文件,然后在时域中可视化它。

[audioIn, fs] = audioread (“KeywordSpeech-16-16-mono-34secs.flac”);声音(audioIn,fs) t = (0:numel(audioIn)-1)/fs;情节(t, audioIn)包含(“时间(s)”)ylabel (“振幅”)

打开音频贴标签机应用程序并加载KeywordSpeech-16-16-mono-34secs.flac文件到数据浏览器

自动化,点击语音文字转换。在语音文字转换选项卡,选择您首选的语音到文本API。这个示例使用IBM speech-to-text API。选择段话因此,文本标签被划分为单独的单词,而不是句子。点击运行与语音到文本API接口,并创建一个新的感兴趣区域(ROI)标签。ROI标签包含由IBM的speech-to-text API检测和标记的单词。

关闭语音文字转换选项卡,然后将标记的信号集导出到工作区。

标签被导出到工作区labeledSignalSet带有时间戳的对象。设置变量labeledSet带时间戳的labeledSignalSet对象。

labeledSet = myLabeledSet;

检查SpeechContent标签。

speechContent = labeledSet.Labels.SpeechContent {1}
speechContent =52×2表_______ _____ ROILimits价值1.31 - 1.41 0.87 - 1.31“第一”“你”1.41 - 1.63”说:“1.63 - 2.22 2.25 - 2.52“是”“那么”2.52 - 3.03“不”3.09 - 3.22”和“3.22 - 3.32 3.32 - 3.52“你””说:“3.52 - 3.94 3.94 - 4.16“是”“那么”4.83 - 5.39 4.16 - 4.66“不”“是的”5.42 - 5.57”“6.15 - 6.56 5.57 - 6.07“不”⋮“驾驶”

语音到文本API以秒为单位返回ROI标签的限制。使用SpeechContent表来创建逻辑向量。

keywordLabels = speechContent (speechContent。值= =“是的”:);keywordROILimitsInSamples =圆(keywordLabels.ROILimits * fs);掩码= 0(大小(audioIn),“逻辑”);i = 1:size(keywordROILimitsInSamples) mask(keywordROILimitsInSamples(i,1):keywordROILimitsInSamples(i,2)) = true;结束

绘制语音信号和关键字定位掩码。

情节(t, audioInt,面具)包含(“时间(s)”)ylabel (“振幅”)传说(“音频”,“关键词发现面具”,“位置”,“东南”)

相关的例子

编程使用

全部展开

audioLabeler打开应用程序,使您能够标记关于音频的基本事实数据。

介绍了R2018b