基于深度学习的语音指令识别

此示例使用：

开放脚本

此示例演示如何训练一个深度学习模型，该模型检测音频中是否存在语音命令。该示例使用语音命令数据集[1]训练卷积神经网络以识别给定的命令集。

要从头开始训练网络，必须首先下载数据集。如果您不想下载数据集或训练网络，那么您可以加载本示例提供的预先训练的网络，并执行示例的下两个部分:通过预先训练的网络识别命令和使用麦克风中的流音频检测命令．

通过预先训练的网络识别命令

在详细介绍培训过程之前，您将使用经过预培训的语音识别网络来识别语音命令。

加载预先训练好的网络。

负载(“commandNet.mat”）

训练网络识别以下语音命令:

“是的”
“没有”
“向上”
“向下”
“左”
“对”
“关于”
“关”
“停下来”
“走”

在有人说“停止”的地方加载一个简短的语音信号。

[x, fs] = audioread (“停止命令。flac”）;

听命令。

声音（x，fs）

预先训练的网络将基于听觉的频谱图作为输入。您将首先将语音波形转换为基于听觉的频谱图。

使用函数extractAuditoryFeature计算听觉频谱图。在本示例的后面部分，您将详细介绍特征提取。

auditorySpect=helperExtractAuditoryFeatures（x，fs）；

根据命令的听觉频谱图对命令进行分类。

命令=分类（trainedNet、auditorySpect）

命令=分类停止

训练网络将不属于该集合的单词分类为“未知”。

现在，您将对未包含在要识别的命令列表中的单词（“play”）进行分类。

加载语音信号并收听。

x=音频读取(“play_command.flac”); 声音（x，fs）

计算听觉频谱图。

auditorySpect=helperExtractAuditoryFeatures（x，fs）；

对信号进行分类。

命令=分类（trainedNet、auditorySpect）

命令=分类未知

训练网络将背景噪声分类为“背景”。

创建由随机噪声组成的1秒信号。

x = pinknoise (16 e3);

计算听觉频谱图。

auditorySpect=helperExtractAuditoryFeatures（x，fs）；

对背景噪声进行分类。

命令=分类（trainedNet、auditorySpect）

命令=分类背景

使用麦克风中的流音频检测命令

在麦克风的流式音频上测试预先训练好的命令检测网络。例如，尝试说出其中一个命令，对，不,或停止．然后，试着说出其中一个不认识的单词，比如马文，希拉，床上，房屋，猫，鸟，或0到9之间的任意数字。

以Hz为单位指定分类速率，并创建一个音频设备阅读器，该阅读器可以从麦克风读取音频。

分类率=20；adr=音频设备阅读器(“采样器”，财政司司长，“样品性能框架”，楼（fs/分级率）；

初始化音频缓冲区。提取网络的分类标签。为流式音频的标签和分类概率初始化半秒的缓冲区。使用这些缓冲区比较较长时间内的分类结果，并在检测到命令时通过构建“一致性”。指定决策逻辑的阈值。

audioBuffer=dsp.AsyncBuffer（fs）；labels=trainedNet.Layers（end）.Classes；YBuffer（1:classificationRate/2）=分类(“背景”)；probBuffer=0（[numel（标签），classificationRate/2]）；countThreshold=ceil（classificationRate*0.2）；probThreshold=0.7；

只要创建的图形存在，就创建图形并检测命令时限来Inf.要停止实时检测，只需关闭图形。

h =图(“单位”，“归一化”，“位置”，[0.20.1 0.6 0.8]）；时限=20；tic虽然句柄(h) && toc < timeLimit%从音频设备中提取音频样本并将样本添加到%的缓冲。x = adr ();写(audioBuffer x);fs, y =阅读(audioBuffer fs-adr.SamplesPerFrame);规范= helperExtractAuditoryFeatures (y, fs);%对当前光谱图进行分类，将标签保存到标签缓冲区，%并将预测的概率保存到概率缓冲区。[Y预测，问题]=分类（培训网，规范，“ExecutionEnvironment”，“cpu”）;YBuffer = [YBuffer(2:结束),YPredicted);probBuffer = [probBuffer(:, 2:结束)、聚合氯化铝(:));%绘制电流波形和频谱图。次要情节(2,1,1)情节(y)轴牢固的Ylim ([-1,1]) subplot(2,1,2) pcolor(spec') caxis([-4 2.6445])底纹平的现在通过执行一个非常简单的命令来进行实际的命令检测%的阈值操作。声明一个检测并将其显示在%图标题（如果以下所有条件均成立）：1）最常见的标签%不是背景。2)至少countThreshold的最新帧%标签一致。3)预测标签的最大概率为at%最小阈值。否则，不要声明检测。[YMode，count]=mode（YBuffer）；maxProb=max（probBuffer（labels==YMode，：）；子批（2,1,1）如果伊莫德==“背景”|| count < count threshold || maxprobb < probThreshold title(" "）其他的标题（字符串（YMode），“字体大小”,20)终止刷新屏幕终止

加载语音命令数据集

这个例子使用谷歌语音命令数据集[1]。下载数据集并解压下载的文件。将PathToDatabase设置为数据的位置。

网址='https://ssd.mathworks.com/万博1manbetxsupportfiles/audio/google_speech.zip'；downloadFolder = tempdir;dataFolder = fullfile (downloadFolder,“谷歌演讲”）;如果~exist（数据文件夹，“dir”)disp('正在下载数据集（1.4 GB）…')解压（url，下载文件夹）终止

创建培训数据存储

创建一个audioDatastore(音频工具箱)这指向训练数据集。

ads=音频数据存储（完整文件（数据文件夹，“火车”),．..“包含子文件夹”符合事实的．..“文件扩展名”，“.wav”，．..“标签源”，“foldernames”）

ads=audioDatastore，具有以下属性：文件：{'.\AppData\Local\Temp\google_speech\train\bed\00176480_nohash_0.wav'.''.\AppData\Local\Temp\google_speech\train\bed\Temp\google_speech\train\bed\004ae714_nohash_1.wav'.'和51085个以上}文件夹：{'C:\Users\jibrahim\AppData\Local\Temp\google_speech\train'}标签：[bed；bed；bed…和51085更分类]AlternateFileSystemRoots:{}输出数据类型：'double'支持输出格式：[“wav”“flac”“ogg”“mp4”“m4a”]默认输出格式：“wav”万博1manbetx

选择要识别的单词

指定您希望模型识别为命令的单词。将所有非命令的单词标记为未知的.将非命令的单词标记为未知的创建一组单词，它近似于除命令之外的所有单词的分布。网络使用这个组来学习命令和所有其他单词之间的区别。

为了减少已知和未知单词之间的类不平衡，加快处理速度，在训练集中只包含一部分未知单词。

使用子集(音频工具箱)创建只包含命令和未知单词子集的数据存储。计算属于每个类别的例子的数量。

命令=分类([“是的”，“没有”，“向上”，“向下”，“左”，“对”，“关于”，“关”，“停下来”，“走”])；isCommand=ismember（ads.Labels，commands）；isUnknown=~isCommand；includeAction=0.2；mask=rand（numel（ads.Labels），1）“未知”）;adsTrain =子集(广告,isCommand | isUnknown);countEachLabel (adsTrain)

ans=11×2表格标签计数\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

创建验证数据存储

创建一个audioDatastore(音频工具箱)指向验证数据集。按照创建培训数据存储所用的相同步骤操作。

ads=音频数据存储（完整文件（数据文件夹，“验证”),．..“包含子文件夹”符合事实的．..“文件扩展名”，“.wav”，．..“标签源”，“foldernames”)isCommand=ismember（ads.Labels，commands）；isUnknown=~isCommand；includeAction=0.2；mask=rand（numel（ads.Labels），1）“未知”)；adsValidation=子集（ads，isCommand |未知）；countEachLabel（adsValidation）

ads=audioDatastore，具有以下属性：文件：{'.\AppData\Local\Temp\google\u speech\validation\bed\026290a7\u nohash\u 0.wav'；'.'.\AppData\Local\Temp\google\u speech\validation\bed\060cd039\u nohash\u speech\validation\bed\060cd039\u nohash\u 1.wav'.'和6795其他}文件夹：{'C:\Users\jibrahim\AppData\Local\Temp\google_speech\validation'}标签：[bed；bed；bed…和6795更分类]AlternateFileSystemRoots:{}输出数据类型：'double'支持输出格式：[“wav”“flac”“ogg”“mp4”“m4a”]默认输出格式：“wav”ans=11×2表格标签计数\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu万博1manbetxuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

要使用整个数据集对网络进行训练并达到尽可能高的精度，请设置还原酶来错误的．要快速运行此示例，请设置还原酶来符合事实的．

reduceDataset = false;如果reduceDataset numUniqueLabels = nummel (unique(adsTrain.Labels));%将数据集减少20倍adsTrain = splitEachLabel(adsTrain,round(numel(adsTrain. files) / numUniqueLabels / 20));adsValidation = splitEachLabel(adsValidation,round(numel(adsValidation. files) / numUniqueLabels / 20));终止

计算听觉频谱图

为了准备有效训练卷积神经网络的数据，将语音波形转换为基于听觉的谱图。

定义特征提取的参数。segmentDuration是每个语音片段的持续时间（以秒为单位）。帧持续时间是用于频谱计算的每个帧的持续时间。啤酒花持续时间为每个频谱之间的时间步长。麻木为听觉声谱图中过滤器的数量。

创建一个音频特征提取器(音频工具箱)对象进行特征提取。

fs=16e3；%数据集的已知采样率。segmentDuration=1；frameDuration=0.025；hopDuration=0.010；segmentSamples=round（segmentDuration*fs）；frameSamples=round（frameDuration*fs）；hopSamples=round（hopDuration*fs）；OverlapseSamples=frameSamples-hopSamples；FFTLLength=512；Numberands=50；afe=audioFeatureExtractor(．..“采样器”，财政司司长，．..“FFTLength”，fft长度，．..“窗口”，hann（框架样本，“周期”),．..“OverlapLength”，重叠样本，．..“巴克光谱”，true）；setExtractorParams（afe，“巴克光谱”，“麻木人”，麻木，“WindowNormalization”，假）；

从数据集读取文件。训练卷积神经网络需要输入大小一致。数据集中的一些文件长度小于1秒。在音频信号的前面和后面应用零填充，使其具有长度分段样本．

x =阅读(adsTrain);numSamples =大小(x, 1);numToPadFront = floor((segmentSamples - numSamples)/2);numToPadBack = cell ((segmentSamples - numSamples)/2);xPadded = 0 (numToPadFront 1“喜欢”, x); x; 0 (numToPadBack 1“喜欢”, x));

要提取音频特征，调用提取.输出为横行随时间变化的树皮谱。

特点=提取(afe xPadded);[numHops, numFeatures] =大小(特性)

numHops=98 numFeatures=50

在本例中，通过应用对数对听觉频谱图进行后处理。记录较小的数字可能导致舍入误差。

为了加快处理速度，可以使用将特征提取分布到多个辅助对象parfor．

首先，确定数据集的分区数。如果您没有并行计算工具箱™，请使用单个分区。

如果~z~我是空的(“平行”)) && ~reduceDataset pool = gcp;numPar = numpartitions (adsTrain、池);其他的numPar = 1;终止

对于每个分区，从数据存储中读取，将信号置零，然后提取特征。

parforii=1:numPar subds=partition（adsTrain，numPar，ii）；XTrain=zero（numHops，numBands，1，numel（subds.Files））；为idx=1:numel（subds.Files）x=read（subds）；xPadded=[zeros（floor（（segmentSamples size（x，1））/2），1）；x；zeros（ceil（（segmentSamples size（x，1））/2），1]；XTrain（：，：，：，idx）=extract（afe，xPadded）；终止XTrainC {2} = XTrain;终止

将输出转换为四维阵列，并沿四维方向绘制听觉频谱图。

XTrain =猫(4,XTrainC {:});[numHops, numBands numChannels numSpec] =大小(XTrain)

numHops = 98 numBands = 50 numChannels = 1 numSpec = 25021

通过窗口功率缩放特征，然后获取日志。要获得分布更平滑的数据，请使用小偏移量获取光谱图的对数。

epsil=1e-6；XTrain=log10（XTrain+epsil）；

对验证集执行上述特征提取步骤。

如果~z~我是空的(“平行”))pool=gcp；numPar=numpartitions（adsvalization，pool）；其他的numPar = 1;终止parforii=1:numPar subds=partition（adsvalization，numPar，ii）；XValidation=zero（numHops，numBands，1，numel（subds.Files））；为idx = 1:numel(subds. files) x = read(subds);xPadded =[0(地板(segmentSamples-size (x, 1)) / 2), 1); x; 0(装天花板((segmentSamples-size (x, 1)) / 2), 1)];XValidation (:,:,:, idx) =提取(afe xPadded);终止XValidationC{ii}=XValidation；终止XValidation=cat（4，XValidationC{:}）；XValidation=log10（XValidation+epsil）；

隔离列车和验证标签。删除空类别。

YTrain = removecats (adsTrain.Labels);YValidation = removecats (adsValidation.Labels);

可视化数据

绘制一些训练样本的波形和听觉频谱图。播放相应的音频片段。

specMin = min (XTrain [],“全部”)；specMax=max（XTrain，[]，“全部”)；idx=randperm（numel（adsTrain.Files），3）；图(“单位”，“归一化”，“位置”,[0.2 0.2 0.6 0.6]);为i=1:3[x，fs]=audioread（adsTrain.Files{idx（i）}）；子地块（2,3，i）绘制（x）轴牢固的标题（字符串（adsTrain.Labels（idx（i）））子批次（2,3，i+3）spect=（XTrain（：，：，1，idx（i）））；pcolor（spect）caxis（[specMin specMax]）着色平的声音(x, fs)暂停(2)终止

添加背景噪声数据

网络必须不仅能够识别不同的口语词，而且能够检测输入是否包含静音或背景噪声。

使用音频文件_背景_文件夹创建一秒背景噪音剪辑的样本。从每个背景噪声文件中创建相同数量的背景剪辑。您也可以创建自己的背景噪音录音，并将它们添加到_背景_文件夹。在计算频谱图之前，该函数使用从对数均匀分布中采样的系数重新缩放每个音频片段，采样范围如下所示：容积法．

adsBkg=音频数据存储（完整文件（数据文件夹，“背景”))numBkgClips=4000；如果reduceDataset numBkgClips = numBkgClips/20;终止容积率=log10（[1e-4,1]）；numBkgFiles=numel（adsBkg.Files）；numClipsPerFile=histcounts（1:numBkgClips，linspace（1，numBkgClips，numBkgFiles+1））；Xbkg=零（尺寸（XTrain，1），尺寸（XTrain，2），1，numBkgClips，“单身”）;bkgAll = readall (adsBkg);印第安纳州= 1;为count=1:numBkgFiles bkg=bkgAll{count}；idxStart=randi（nummel（bkg）-fs，numClipsPerFile（count），1）；idxEnd=idxStart+fs-1；增益=10^（（volumeRange（2）-volumeRange（1））*rand（numClipsPerFile（count），1）+volumeRange（1））；为j=1:numClipsPerFile（count）x=bkg（idxStart（j）：idxEnd（j））*增益（j）；x=最大值（最小值（x，1），-1）；Xbkg（：，：，：，ind）=提取物（afe，x）；如果模（ind，1000）=0显示(“已处理”(印第安纳州)+ +字符串“背景剪辑来自”+字符串（多个片段））终止Ind = Ind + 1;终止终止Xbkg=log10（Xbkg+epsil）；

adsBkg=audioDatastore及其属性：文件：{'.\AppData\Local\Temp\google\u speech\background\doing\u the_disks.wav'.'.'.\AppData\Local\Temp\google\U speech\background\doing\u the_the_Discip.wav'.'.\AppData\Local\Temp\Temp\google\Temp\Temp\google\Temp\Temp\Temp\google\speech\google\bike\wav'.'和其他3个文件夹：{'C:\Users\jibrahim\AppData\Local\Temp\google\u speech\background'}可选文件系统根：{}输出数据类型：{}双标签：{}支持输出格式：[“wav”“flac”“ogg”“mp4”“m4a”]默认输出格式万博1manbetx：“wav”处理了4000个背景剪辑中的1000个，处理了4000个背景剪辑中的2000个，处理了4000个背景剪辑中的3000个，处理了4000个背景剪辑中的4000个

在训练集、验证集和测试集之间分割背景噪声谱图。因为_背景噪声_文件夹仅包含大约五分钟半的背景噪声，不同数据集中的背景样本高度相关。若要增加背景噪声的变化，可以创建自己的背景文件并将其添加到文件夹中。若要提高网络对噪声的鲁棒性，还可以尝试混合backgr将噪音输入语音文件。

numTrainBkg=地板（0.85*numBkgClips）；numValidationBkg=地板（0.15*numBkgClips）；XTrain（：，：，：，end+1:end+numTrainBkg）=Xbkg（：，：，：，1:numTrainBkg）；YTrain（结束+1:end+numTrainBkg）=“背景”; XValidation（：，：，：，end+1:end+numValidationBkg）=Xbkg（：，：，：，numTrainBkg+1:end）；YValidation（end+1:end+NUMVLIDATIONBKG）=“背景”；

绘制不同类别标签在训练和验证集中的分布。

身材(“单位”，“归一化”，“位置”，[0.2 0.2 0.5 0.5]) subplot(2,1,1) histogram(YTrain) title(“培训标签分发”)子批次（2,1,2）直方图（YValidation）标题(“验证标签分发”）

定义神经网络结构

创建一个简单的网络架构，作为一组层。使用卷积和批处理归一化层，并使用最大池化层在“空间上”(即在时间和频率上)对特征映射进行向下采样。添加一个最终的最大池化层，随着时间的推移将输入特征映射全局池化。这在输入谱图中强制了(近似)时间平移不变性，允许网络执行相同的分类，而不依赖于语音在时间上的确切位置。全局池还显著减少了最终完全连接层中的参数数量。为了减少网络记忆训练数据的特定特征的可能性，在最后一个完全连接层的输入中添加少量的dropout。

这个网络很小，因为它只有五个卷积层和几个过滤器。numF控制卷积层中的过滤器数量。若要提高网络的准确性，请尝试通过添加相同的卷积层、批量规范化层和ReLU层块来增加网络深度。也可以尝试通过增加numF．

使用加权交叉熵分类损失。权重ClassificationLayer（类权重）创建一个自定义分类层，该层使用加权的观测值计算交叉熵损失类权重。按照类在中出现的顺序指定类权重类别（YTrain）。要使每个类在损失中的总权重相等，请使用与每个类中的训练示例数成反比的类权重。使用Adam优化器训练网络时，训练算法独立于类权重的整体标准化。

classWeights=1./countcats（YTrain）；classWeights=classWeights'/mean（classWeights）；numclass=numel（categories（YTrain））；timePoolSize=ceil（numHops/8）；dropoutProb=0.2；numF=12；layers=[imageInputLayer（[numHops numBands]）卷积2dlayer（3，numF，“填充”，“一样”maxPooling2dLayer(3，“步”2.“填充”，“一样”) convolution2dLayer (3 2 * numF“填充”，“一样”maxPooling2dLayer(3，“步”2.“填充”，“一样”)卷积2层（3,4*numF，“填充”，“一样”maxPooling2dLayer(3，“步”2.“填充”，“一样”)卷积2层（3,4*numF，“填充”，“一样”)batchNormalizationLayer reluLayer卷积2Dlayer（3,4*numF，“填充”，“一样”)batchNormalizationLayer reluLayer MaxPoolg2dLayer（[timePoolSize，1]）DropOutployer（dropoutProb）fullyConnectedLayer（numClasses）softmaxLayer weightedClassificationLayer（classWeights）]；

列车网络的

指定培训选项。使用Adam优化器，迷你批量大小为128。训练25个周期，20个周期后学习率降低10倍。

miniBatchSize=128；验证频率=楼层（numel（YTrain）/最小批量大小）；选项=培训选项(“亚当”，．..“初始学习率”，3e-4，．..“MaxEpochs”25岁的．..“MiniBatchSize”，小批量，．..“洗牌”，“每个时代”，．..“阴谋”，“训练进步”，．..“冗长”错误的．..“验证数据”，{XValidation，YValidation}，．..“验证频率”，验证频率，．..“LearnRateSchedule”，“分段”，．..“LearnRateDropFactor”, 0.1,．..“LearnRateDropPeriod”, 20);

培训网络。如果您没有GPU，那么训练网络可能需要时间。

trainedNet = trainNetwork (XTrain、YTrain层,选择);

评估培训网络

计算网络在训练集(无数据增强)和验证集上的最终精度。这个网络对这个数据集非常精确。然而，培训、验证和测试数据都有类似的分布，不一定反映真实环境。这个限制特别适用于未知的类别，其中只包含少量单词的语句。

如果reduceDataset负载(“commandNet.mat”，“trainedNet”）;终止YValPred=分类（trainedNet，XValidation）；validationError=平均值（YValPred~=YValidation）；YTrainPred=分类（trainedNet，XTrain）；trainError=平均值（YTrainPred~=YTrain）；disp(“训练错误：”+列车错误*100+“%”)disp("验证错误:"+ validationError * 100 +“%”）

培训错误：1.907%验证错误：5.5376%

绘制混淆矩阵。通过使用列和行摘要显示每个类的精度和召回率。对混淆矩阵的类进行排序。最大的混淆是在未知的单词和命令之间，向上和关，下来和不和去和不．

身材(“单位”，“归一化”，“位置”，[0.2 0.2 0.5 0.5]);厘米= confusionchart (YValidation YValPred);厘米。Title =“验证数据的混淆矩阵”; cm.摘要=“column-normalized”；cm.概述=“行规范化”；sortClasses(厘米,[命令,“未知”，“背景”])

当处理具有受限硬件资源的应用程序(如移动应用程序)时，请考虑可用内存和计算资源的限制。以千字节为单位计算网络的总大小，并在使用CPU时测试其预测速度。预测时间是对单个输入图像进行分类的时间。如果你向网络输入多个图像，这些图像可以同时分类，从而缩短每个图像的预测时间。然而，在对流音频进行分类时，单图像的预测时间是最相关的。

信息=谁(“trainedNet”）;disp (“网络大小:”+信息。字节/ 1024 +“kB”）为i=1:100 x=randn（[numHops，numBands]）；tic[yppredicted，probs]=分类（trainedNet，x，“ExecutionEnvironment”，“cpu”）;时间(i) = toc;终止disp (CPU上单图像预测时间:+平均值（时间（11:end））*1000+“ms”）

网络大小：286.7402 kB CPU上的单映像预测时间：2.5119毫秒

工具书类

[1]监狱长P。“语音指令:单字语音识别的公共数据集”，2017。可以从https://storage.googleapis.com/download.tensorflow.org/data/speech_commands_v0.01.tar.gz.Google 2017版权所有。语音命令数据集根据Creative Commons Attribute 4.0许可证获得许可，可从以下网址获得：https://creativecommons.org/licenses/by/4.0/legalcode．

工具书类

[1]监狱长P。“语音指令:单字语音识别的公共数据集”，2017。可以从http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz.Google 2017版权所有。语音命令数据集根据Creative Commons Attribute 4.0许可证获得许可，可从以下网址获得：https://creativecommons.org/licenses/by/4.0/legalcode．

另请参阅

列车网络|分类|分析网络

基于深度学习的语音指令识别

通过预先训练的网络识别命令

使用麦克风中的流音频检测命令

加载语音命令数据集

创建培训数据存储

选择要识别的单词

创建验证数据存储

计算听觉频谱图

可视化数据

添加背景噪声数据

定义神经网络结构

列车网络的

评估培训网络

工具书类

工具书类

另请参阅

相关话题

深度学习工具箱文档

万博1manbetx

用MATLAB引入深度学习