主要内容

使用i-vectors验证扬声器验证

说话人验证或认证的任务是确认说话人的身份是否属实。多年来,发言人验证一直是一个活跃的研究领域。早期的性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)。[1]在声学特征上(通常mfcc)。例如,看到使用高斯混合模型的说话人验证.GMM-UBM系统的主要困难之一涉及会话间的可变性。联合因素分析(JFA)被提出,以补偿这一变异性分别建模发言者间的变异性和渠道或会话变异性[2][3].然而,[4]发现JFA中的通道因子也包含关于说话人的信息,并建议将通道和说话人空间组合成一个总变化空间.然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异性,然后是一个评分,如余弦相似度评分。[5]提出用概率LDA(PLDA)模型取代余弦相似度评分。[11][12]提出了一种用于高斯高斯高斯的方法,因此在PLDA中制造高斯假设,称为G-PLDA或简化的PLDA。虽然I-vectors最初提出用于发言者核查,但它们已应用于许多问题,如语言识别,扬声器日益增长,情感识别,年龄估计和反欺骗[10].最近,深度学习技术被提出用D-载体x-vectors[8][6]

使用i-vector system

音频工具箱提供了象征系统它封装了训练i向量系统、注册扬声器或其他音频标签、评估系统的决定阈值、识别或验证扬声器或其他音频标签的能力。看到象征系统提供使用此特性并将其应用于多个应用程序的示例。

要了解更多关于i矢量系统如何工作的信息,请继续看这个例子。

开发I型矢量系统

在此示例中,您可以为扬声器验证开发一个标准的I形式系统,该系统使用LDA-WCCN后端具有余弦相似度评分或G-PLDA评分。

在整个示例中,您将发现可调参数上的活动控件。更改控件不会重新运行示例。如果更改控件,则必须重新运行该示例。

数据集管理

本例使用Graz University of Technology的Pitch Tracking数据库(PTDB-TUG)[7].该数据集由20位以英语为母语的人阅读来自TIMIT语料库的2342个语音丰富的句子组成。下载并提取数据集。根据您的系统,下载和提取数据集可能需要大约1.5小时。

url =“https://www2.spsc.tugraz.at/databases/PTDB-TUG/SPEECH_DATA_ZIPPED.zip”;downloadFolder = tempdir;datasetFolder = fullfile (downloadFolder,'ptdb-tug');如果〜存在(DataSetFolder,“dir”) disp (“正在下载PTDB-TUG (3.9 G)……”)解压缩(URL,DataSetFolder)结尾
下载PTDB-TUG (3.9 G)…

创建一个audiodatastore.指向数据集的对象。数据集最初用于参与音高跟踪培训和评估,并包括喉部读数和基线音调决策。仅使用原始的录音。

广告= audioDatastore ([fullfile (datasetFolder“语音数据”“女性”“麦克风”),fullfile(DataSetFolder,“语音数据”“男性”“麦克风”)),...“IncludeSubfolders”,真的,...“FileExtensions”'.wav');文件名= ads.Files;

文件名包含扬声器id。对文件名进行解码以设置标签audiodatastore.目的。

SpeakerIds = ExtractBetween(文件名,“mic_”“_”);ads.Labels =分类(speakerIDs);countEachLabel(广告)
ans =20×2表标签计数_____ _____ F01 236 F02 236 F03 236 F04 236 F05 236 F06 236 F07 236 F08 234 F09 236 F10 236 M01 236 M02 236 M03 236 M04 236 M05 236 M06 236⋮

分开audiodatastore.对象进入培训,评估和测试集。培训集包含16个扬声器。评估集包含四个扬声器,进一步分为注册集,并设置为评估培训的I - 矢量系统的检测误差权衡和测试集。

developmentLabels =分类([“M01”“m02”“m03”“m04”“m06”“m07”“m08”“m09”“F01”“F02”“F03”“F04”“F06”“F07”“F08”“F09”]);evaluationLabels =分类([“m05”“M010”“F05”“F010”]);adsTrain =子集(广告,ismember (ads.Labels developmentLabels));adsEvaluate =子集(广告,ismember (ads.Labels evaluationLabels));numFilesPerSpeakerForEnrollment =3.;[adsEnroll, adsTest adsDET] = splitEachLabel (adsEvaluate numFilesPerSpeakerForEnrollment 2);

显示结果的标签分布audiodatastore.对象。

countEachLabel (adsTrain)
ans =16×2表标签计数_____ _____ F01 236 F02 236 F03 236 F04 236 F06 236 F07 236 F08 234 F09 236 M01 236 M02 236 M03 236 M04 236 M06 236 M07 236 M08 236 M09 236
countEachLabel (adsEnroll)
ans =2×2表标签数_____ _____ f05 3 m05 3
countEachLabel (adsDET)
ans =2×2表标签计数_____ _____ F05 231 M05 231
CountAckeLabel(adstest)
ans =2×2表标签数_____ _____ f05 2 m05 2

从训练数据集中读取音频文件,听它,并绘制它。重置数据存储。

[音频、audioInfo] =阅读(adsTrain);fs = audioInfo.SampleRate;t =(0:大小(音频,1)1)/ fs;声音(音频、fs)情节(t)、音频)包含('时间'') ylabel (“振幅”)轴([0 t(end)-1 1])标题(“来自训练集的样本话语”

重置(adstrain)

您可以减少本例中使用的数据集和参数数量,以以性能为代价加快运行时。通常,减少数据集是开发和调试的一种良好实践。

speedupexample =.如果speedUpExample adsTrain = splitEachLabel(adsTrain,30);adsDET = splitEachLabel (adsDET 21);结尾

特征提取

创建一个audioFeatureExtractor对象提取20个MFCC,20个Delta-MFCC和20 Delta-Delta MFCC。使用具有10 ms HOP的25毫秒HANN Windows的提取功能的Delta窗口长度。

numcoeffs =20.;deltaWindowLength =9.;windowDuration =0.025;HopDuration =.0.01;Windowsamples = ROUNG(WindowDuration * FS);HOPSAMPLES =圆形(HOPDURATION * FS);重叠alamples = Windowsamples  -  Hopsamples;AFE = audiofeatureextractor(...“SampleRate”fs,...'窗户',汉恩(Windowsamples,'定期'),...“OverlapLength”overlapSamples,......“mfcc”,真的,...“mfccDelta”,真的,...'mfccdeltadelta',真正的);setExtractorParams (afe“mfcc”“DeltaWindowLength”,deltawindowlength,“NumCoeffs”numCoeffs)

从训练数据存储中读取的音频中提取特征。特性被返回为numhops.——- - - - - -numfeatures.矩阵。

=特征提取(afe、音频);[numHops, numFeatures] =大小(特性)
numhops = 797.
numfeatures = 60.

培训

训练一个i向量系统在计算上是昂贵和耗时的。如果您有Parallel Computing Toolbox™,您可以将工作分散到多个核上以加快示例的速度。确定系统的最佳分区数。如果您没有并行计算工具箱™,请使用单个分区。

如果~ isempty(版本(“平行”)) && ~speedUpExample pool = gcp;numPar = numpartitions (adsTrain、池);其他的numpar = 1;结尾
使用“local”配置文件启动并行池(parpool)…连接到并行池(工作人员数量:6)。

特征归一化因子

使用辅助功能,HelperFeatureextraction.,从数据集中提取所有特征。的HelperFeatureextraction.功能从音频中的语音区域提取MFCC。语音检测是由detectSpeech功能。

特征在于= {};Tic.议案ii = 1:numPar adsPart = partition(adsTrain,numPar,ii);功能= cell(0,numel(adspart.files));III = 1:numel(adspart.files)audiodata = read(adspart);特点{III} =辅助术(Audiodata,AFE,[]);结尾featuresAll = [featuresAll, featuresPart];结尾allFeatures =猫(2,featuresAll {:});fprintf(“从训练集中提取特征完成(%0.0f秒)。”,TOC)
从训练集完成特征提取(58秒)。

计算每个功能的全局均值和标准偏差。您将在未来的呼唤中使用这些HelperFeatureextraction.函数对特性进行规范化。

常规常规=均值(Allfeatures,2,“omitnan”);ramefactors.std = std(全娱乐,[],2,“omitnan”);

通用背景模型(UBM)

初始化将是I形式系统中的通用背景模型(UBM)的高斯混合模型(GMM)。组件权重被均匀分布式初始化。在Timit数据集上培训的系统通常包含大约2048个组件。

numComponents =64.如果SpeedupExample NumComponents = 32;结尾Alpha = Oner(1,NumComponents)/ NumComponents;mu = randn(numfeatures,num components);vari = rand(numfeatures,num components)+ eps;UBM = struct(“ComponentProportion”α,'亩'亩,'sigma'、变化);

使用期望最大化(EM)算法训练UBM。

麦克斯特=10如果speedUpExample maxIter = 2;结尾Tic.iter = 1:maxIter tic%的期望n =零(1,NumComponents);f =零(NumFeatures,NumComponents);s =零(NumFeatures,NumComponents);l = 0;议案ii = 1:numPar adsPart = partition(adsTrain,numPar,ii);hasdata(adsPart) audioData = read(adsPart);%提取特征afe, Y = helperFeatureExtraction (audioData normFactors);%计算后验对数可能性logLikelihood = helperGMMLogLikelihood (Y, ubm);%计算后验归一化概率Amax = Max(Loglikelihood,[],1);loglikelihoodsum = amax + log(sum(exp(loglikelihip-amax),1));Gamma = Exp(Loglikelihood  -  loglikelihoodsum)';%计算Baum-Welch统计n =总和(γ1);f = Y * gamma;s =(Y. * Y)*伽玛;%更新足够的话语统计数据n = n + n;f = f + f;s = s + s;%更新日志可能性L = L + sum(loglikehoodsum);结尾结尾%打印当前日志可能性fprintf('培训UBM:%d /%d完整(%0.0f秒),log-likeelihie =%0.0f \ n'iter,麦克斯特、toc、L)%最大化n = max(n,eps);UBM.ComponentPropog按= max(n / sum(n),eps);UBM.ComponentProport = UBM.ComponentPropoftic / Sum(UBM.ComponentPropoft);ubm.mu = f./n;ubm.sigma = max(s./n  -  ubm.mu. ^ 2,eps);结尾
培训UBM:1/10完成(59秒),log-likeelihie = -162907120训练UBM:2/10完成(53秒),log-likeelihie = -82282814训练UBM:3/10完成(54秒),log-L.一世kelihood = -78667384 Training UBM: 4/10 complete (55 seconds), Log-likelihood = -77041863 Training UBM: 5/10 complete (54 seconds), Log-likelihood = -76338342 Training UBM: 6/10 complete (52 seconds), Log-likelihood = -75958218 Training UBM: 7/10 complete (52 seconds), Log-likelihood = -75724712 Training UBM: 8/10 complete (53 seconds), Log-likelihood = -75561701 Training UBM: 9/10 complete (54 seconds), Log-likelihood = -75417170 Training UBM: 10/10 complete (55 seconds), Log-likelihood = -75275185

计算Baum-Welch统计

Baum-welch统计数据是N(Zeroth订单)和FEM算法中使用的(一阶)统计量,使用最终的UBM计算。

N C S. = σ. T. γ T. C

F C S. = σ. T. γ T. C y T.

  • y T. 是时刻的特征向量吗 T.

  • S. { S. 1 S. 2 S. N } ,在那里 N 是发言者的数量。出于培训总可变空间的目的,每个音频文件被认为是一个单独的扬声器(是否属于物理单个扬声器)。

  • γ T. C 是UBM组件的后验概率 C 帐户为特征向量 y T.

计算训练集上的零阶和一阶Baum-Welch统计量。

numSpeakers =元素个数(adsTrain.Files);数控= {};Fc = {};Tic.议案ii = 1:numPar adsPart = partition(adsTrain,numPar,ii);numFiles =元素个数(adsPart.Files);Npart =细胞(1、numFiles);Fpart =细胞(1、numFiles);JJ = 1:NumFiles AudioData =读取(Adspart);%提取特征afe, Y = helperFeatureExtraction (audioData normFactors);%计算后验记录可能性logLikelihood = helperGMMLogLikelihood (Y, ubm);%计算后验归一化概率Amax = Max(Loglikelihood,[],1);loglikelihoodsum = amax + log(sum(exp(loglikelihip-amax),1));Gamma = Exp(Loglikelihood  -  loglikelihoodsum)';%计算Baum-Welch统计n =总和(γ1);f = Y * gamma;Npart {jj} =重塑(n, 1, 1, numComponents);Fpart {jj} =重塑(f, numFeatures 1 numComponents);结尾数控=(数控,Npart);Fc = (Fc, Fpart);结尾fprintf('Baum-Welch统计完成(%0.0f秒)' \n',TOC)
Baum-welch统计数据已完成(54秒)。

将统计信息扩展到矩阵和中心 F S. ,如[3],这样

  • N S. 是A. C F × C F 对角线矩阵,其块是 N C S. 一世 C = 1 C

  • F S. 是A. C F × 1 通过连接获得的监督员 F C S. C = 1 C

  • C 是UBM中组件的数量。

  • F 为特征向量中特征的个数。

N =数控;F = Fc;民大=重塑(ubm.mu numFeatures 1, []);s = 1:NumPapers n {s} = Repelem(重塑(nc {s},1,[]),numfeatures);f {s} =重塑(fc {s}  -  nc {s}。* muc,[],1);结尾

因为这个例子假设UBM的对角协方差矩阵,N也是对角矩阵,并保存为向量以进行有效计算。

总可变性空间

在i向量模型中,理想说话人超向量由一个说话人无关分量和一个说话人相关分量组成。说话人依赖分量由总变异性空间模型和说话人的i向量组成。

m = m + 太瓦

  • m 说话人是话语的超向量吗

  • m 为与说话人和信道无关的超矢量,可视为UBM超矢量。

  • T. 是一个低级矩形矩阵,代表总变性子空间。

  • W. i向量是说话者的吗

I形载体的维度, W. ,通常比C维说话者话语超向量低得多,这使得i向量,或i向量,是一个更紧凑和易于处理的表示。

为了训练整个可变性空间, T. ,首先随机初始化T.,然后迭代地执行这些步骤[3]

  1. 计算隐藏变量的后部分布。

L. T. S. = 一世 + T. ' × Σ - 1 × N S. × T.

2.收集所有发言者的数据。

Κ = σ. S. F S. × L. T. - 1 S. × T. ' × Σ - 1 × F S. '

一种 C = σ. S. N C S. L. T. - 1 S.

3.更新总的可变性空间。

T. C = 一种 C - 1 × Κ

T. = [ T. 1 T. 2 T. C ]

[3]建议初始化 Σ 通过UBM的变化,然后更新 Σ 根据等式:

Σ = σ. S. N S. - 1 σ. S. S. S. - 诊断接头 Κ × T. '

其中S(S)是居中的二阶Baum-Welch统计量。然而,更新 Σ 在实践中经常被放弃,因为收效甚微。这个例子没有更新 Σ

创建变量。

sigma = ubm.sigma(:);

指定总可变性空间的维度。TIMIT数据集使用的典型值是1000。

numTdim =32.如果numTdim = 16;结尾

初始化T.和标识矩阵和预先分配单元阵列。

T = RANDN(NUMER(UBM.SIGMA),NUMTDIM);t = t / narm(t);我=眼睛(numtdim);EY =细胞(NumSpeakers,1);Eyy = Cell(NumSpeakers,1);Linv = Cell(NumSpeakers,1);

设置训练的迭代次数。报告的典型值是20。

numitrations =5.

运行训练循环。

ITerIDX = 1:NUMITRATION TIC%1.计算隐藏变量的后部分布ttimesinversessdiag =(t./sigma)';议案s = 1:numSpeakers L = (I + TtimesInverseSSdiag.*N{s}*T);Linv{年代}= pinv (L);是{年代}= Linv{年代}* TtimesInverseSSdiag * F{年代};y{s} = Linv{s} + Ey{s}*Ey{s}';结尾%2.跨扬声器累计统计数据Eymat =猫(2,Ey {:});ffmat = cat(2,f {:});kt = ffmat * eymat';k = mat2cell(kt',numtdim,Repelem(Numfeatures,Num Components));newt = cell(NumComponents,1);C = 1:NumComponents Aclocal = Zeros(NumTDIM);S = 1:NumPakers Aclocal = Aclocal + NC {s}(:,c)* eyy {s};结尾% 3。更新总可变性空间newt {c} =(pinv(aclocal)* k {c})';结尾猫(T = 1,纽特{:});fprintf('培训总可变空间:%d /%d完整(%0.0f秒)。\ n', numIterations iterIdx toc)结尾
训练全部变异性空间:1/5完成(2秒)。训练全部变异性空间:2/5完成(2秒)。训练全部变异性空间:3/5完成(2秒)。训练总变异性空间:4/5完成(1秒)。训练总变异性空间:5/5完成(1秒)。

i矢量提取

一旦计算出总的可变性空间,就可以计算i向量为[4]

W. = 一世 + T. ' Σ - 1 NT. ' T. ' Σ - 1 F

此时,您仍在将每个训练文件视为单独的扬声器。但是,在下一步中,当您培训投影矩阵以减少维度并提高扬声器间差异时,必须用适当的,不同的扬声器ID标记i vectors。

创建单元阵列,其中小区阵列的每个元素包含针对特定扬声器的文件的i-vector的矩阵。

扬声器=唯一(adstrain.labels);NumSpeakers = Numel(扬声器);ivectorperspaeer = cell(numspeakers,1);ts = t./sigma;tsi = ts';Ubmmu = ubm.mu;Tic.议案speakerIdx = 1: numSpeakers%数据存储的子集到你正在适应的扬声器。adsPart =子集(adsTrain adsTrain.Labels = =扬声器(speakerIdx));numFiles =元素个数(adsPart.Files);ivectorPerFile = 0 (numTdim numFiles);fileIdx = 1:numFiles audioData = read(adpart);%提取特征afe, Y = helperFeatureExtraction (audioData normFactors);%计算后验记录可能性logLikelihood = helperGMMLogLikelihood (Y, ubm);%计算后验归一化概率Amax = Max(Loglikelihood,[],1);loglikelihoodsum = amax + log(sum(exp(loglikelihip-amax),1));Gamma = Exp(Loglikelihood  -  loglikelihoodsum)';%计算Baum-Welch统计n =总和(γ1);f = y * gamma  -  n。*(ubmmu);viverperfile(:,fileidx)= pinv(i +(ts。* repelem(n(:),numfeatures))'* t)* tsi * f(:);结尾ivectorPerSpeaker {speakerIdx} = ivectorPerFile;结尾fprintf(' i -向量从训练集中提取(%0.0f秒).\n',TOC)
从训练集中提取的i向量(60秒)。

投影矩阵

对于i向量,已经提出了许多不同的后端。最直接且仍然表现良好的方法是线性判别分析(LDA)和类内协方差归一化(WCCN)的结合。

创建一个训练向量矩阵和一张地图,指明哪个i向量对应于哪个说话人。将投影矩阵初始化为单位矩阵。

w = ivectorPerSpeaker;utterancePerSpeaker = cellfun (@ (x)大小(x, 2), w);ivectorsTrain =猫(2 w {:});projectionMatrix =眼睛(大小(w {1}, 1));

LDA试图最大限度地减少类内差异并最大限度地提高扬声器之间的差异。它可以按照概述计算[4]

鉴于

S. B. = σ. S. = 1 S. W. S. - W. W. S. - W. '

S. W. = σ. S. = 1 S. 1 N S. σ. 一世 = 1 N S. W. 一世 S. - W. S. W. 一世 S. - W. S. '

在哪里

  • W. S. = 1 N S. σ. 一世 = 1 N S. W. 一世 S. 是每个扬声器的I-Vectors的平均值。

  • W. = 1 N σ. S. = 1 S. σ. 一世 = 1 N S. W. 一世 S. 是所有扬声器的平均i-载体。

  • N S. 是每个扬声器的话语数量。

解决最佳特征向量的特征值方程:

S. B. V. = λ S. W. V.

最好的特征向量是那些具有最大特征值的。

performLDA =真正的如果performLDA tic numEigenvectors =16;Sw = 0(大小(projectionMatrix, 1));某人= 0(大小(projectionMatrix, 1));wbar =意味着(猫(2 w {:}), 2);Ii = 1:numel(w) ws = w{Ii};wsbar =意味着(ws, 2);Sb = Sb + (wsbar - wbar)*(wsbar - wbar)';Sw = Sw + cov(ws',1);结尾(~) = eigs(某人,西南,numEigenvectors);= (A / vecnorm (A)) ';= A * ivectorsTrain;w = mat2cell (ivectorsTrain、大小(ivectorsTrain, 1), utterancePerSpeaker);投影矩阵= A *投影矩阵;fprintf(“LDA投影矩阵计算(%0.2f秒)”,TOC)结尾
LDA投影矩阵计算(0.22秒)。

WCCN试图与类内协方差相反地缩放i向量空间,因此在i向量比较中,演讲者内部高变异性的方向不被强调[9]

鉴于阶级协方差矩阵:

W. = 1 S. σ. S. = 1 S. 1 N S. σ. 一世 = 1 N S. W. 一世 S. - W. S. W. 一世 S. - W. S. '

在哪里

  • W. S. = 1 N S. σ. 一世 = 1 N S. W. 一世 S. 是每个扬声器的I-Vectors的平均值。

  • N S. 是每个扬声器的话语数量。

解决对于B使用Cholesky分解:

W. - 1 = BB. '

performWCCN =真正的如果performWCCN tic =0.9;W = 0(大小(projectionMatrix, 1));ii = 1:numel(w) w = w + cov(w{ii}',1);结尾w = w / numel(w);w =(1  -  alpha)* w + alpha *眼睛(尺寸(w,1));B = CHOL(PINV(W),'降低');proigndmatrix = b * projectijatrix;fprintf('WCCN投影矩阵计算(%0.4F秒)。,TOC)结尾
计算WCCN投影矩阵(0.0063秒)。

培训阶段现在已经完成。现在可以使用通用背景模型(UBM)、总可变性空间(T)和投影矩阵来登记和验证扬声器。

火车G-PLDA模型

将投影矩阵应用于列车集。

vivectors = Cellfun(@(x)proigndmatrix * x,ivectorperspaeer,“UniformOutput”、假);

这个算法实现在这个例子是一个高斯PLDA概述[13].在高斯PLDA中,i矢量表示为:

ϕ ij = μ + v 一世 + ε ij

y 一世 Ν 0. Ι

ε ij Ν 0. Λ - 1

在哪里 μ 是i向量的全局均值, Λ 是噪声术语的完整精确矩阵 ε ij , V. 是因子加载矩阵,也称为特征员。

指定要使用的特征音的数量。通常数字在10到400之间。

numEigenVoices =16

确定不相交的人的数量,特征向量的维数,每个说话人的话语数。

K =元素个数(ivectors);D =大小(ivectors {1}, 1);utterancePerSpeaker = cellfun (@ (x)大小(x, 2), ivectors);

找出样本总数,并将i向量居中。

N = σ. 一世 = 1 K. N 一世

μ = 1 N σ. 一世 j ϕ 一世 j

φ ij = ϕ ij - μ

伊夫特氏士Matrix = CAT(2,Ivectors {:});n =尺寸(伊象Matrix,2);mu =平均值(ivectorsmatrix,2);伊鸠斯Matrix= Ivectorsmatrix  -  mu;

从训练的i向量中确定白化矩阵,然后对i向量进行白化。指定ZCA美白,PCA美白,或不美白。

白白型=“ZCA”如果Strcmpi(白白,“ZCA”) S = cov(vectorsmatrix ');[~, sD, sV] =圣言(年代);W = diag(1 /(sqrt(diag(sD)) + eps))*sV';向量矩阵= W *向量矩阵;elseifStrcmpi(白白,主成分分析的) S = cov(vectorsmatrix ');(sV, sD) = eig(年代);W = diag(1 /(sqrt(diag(sD)) + eps))*sV';向量矩阵= W *向量矩阵;其他的W =眼睛(大小(ivectorsMatrix, 1));结尾

应用长度归一化,然后将训练I矢量矩阵转换回小区数组。

ivectorsMatrix = ivectorsMatrix. / vecnorm (ivectorsMatrix);

计算全局二阶矩为

S. = σ. ij φ ij φ ij T.

S = ivectorsMatrix * ivectorsMatrix ';

将训练I-向量矩阵转换回小区数组。

vivectors = mat2cell(ivectorsmatrix,d,发话务员夹子);

根据样本数量对人进行排序,然后根据每个说话人的话语数量对i向量进行分组。预计算的一阶矩 一世 - 艺人

F 一世 = σ. j = 1 N 一世 φ ij

uniqueLengths =独特(utterancePerSpeaker);numUniqueLengths =元素个数(uniqueLengths);speakerIdx = 1;f = 0 (D、K);1: numuniquelengthidx = find(utterancePerSpeaker== uniqueLengthIdx);temp = {};speakerIdxWithinUniqueLength = 1:numel(idx) rho = ivectors(idx(speakerIdxWithinUniqueLength));temp =(临时;ρ);%#OK f (:, speakerIdx) =(ρ{:},2)总和;speakerIdx = speakerIdx + 1;结尾ivectorsSorted {uniqueLengthIdx} = temp;% #好< SAGROW >结尾

初始化特征音矩阵V和反噪声方差项, Λ

V = randn (D, numEigenVoices);λ= pinv (S / N);

指定EM算法的迭代次数以及是否应用最小分歧。

numIter =5.;minimumDivergence =真正的

使用EM算法训练G-PLDA模型[13]

iter = 1: numIter%的期望γ= 0 (numEigenVoices numEigenVoices);EyTotal = 0 (numEigenVoices K);R = 0 (numEigenVoices numEigenVoices);idx = 1;lengthIndex = 1:numUniqueLengths ivectorLength = uniqueLengths(lengthIndex);%分离长度相同的i个向量4 = ivectorsSorted {lengthIndex};%计算M.m = pinv(id vectorlength *(v'*(lambda * v))+眼睛(numegenvoices));%[13]中(A.7)式对于当前I形向量长度的每个扬声器上的%循环SpeakerIndex = 1:Numel(IV)V的潜在变量的%第一时刻嗯= M * V ' *λ* f (:, idx);[13]中%等式(A.8)%计算第二时刻。Ey = Ey * Ey';%更新ryyR = R + ivectorLength*(M + Eyy);%[13]中(A.13)式%附加EyTotalEyTotal (:, idx) =等等;Idx = Idx + 1;%如果使用最小散度,更新伽马。如果最终伽玛=伽马+(M + Eyy);[13]中%等式(A.18)结尾结尾结尾%计算T.TT = EyTotal * f ';%[13]中(A.12)式%最大化v = tt'* pinv(r);%[13]中(A.16)式= pinv((S - V*TT)/N);%[13]中(A.17)式%最小差异如果minimumDivergence = gamma/K;[13]中%等式(A.18)V = V *胆固醇(γ,'降低');[13]中%等式(A.22)结尾结尾

一旦你训练了G-PLDA模型,你就可以使用它来计算一个基于对数似然比的分数[14].给定两个i向量已居中、漂白和长度归一化,分数计算如下:

分数 W. 1 W. T. = [ W. 1 T. W. T. T. ] [ Σ + VV T. VV T. VV T. Σ + VV T. ] [ W. 1 W. T. ] - W. 1 T. [ Σ + VV T. ] - 1 W. 1 - W. T. T. [ Σ + VV T. ] - 1 W. T. + C

在哪里 W. 1 W. T. 是注册和测试的i向量, Σ 为噪声项的方差矩阵, V. 为特征语音矩阵。的 C 术语是因子出局的竞争者,可以在实践中删除。

speakeridx =.2;发话机=1;w1 = vivectors {speakeridx}(:,话语);speakeridx =.1;发话机=10;wt = vivectors {speakeridx}(:,发话机);vvt = v * v';SigmaPlusVVT = PINV(LAMBDA)+ VVT;term1 = pinv([sigmaplusvvt vvt; vvt sigmaplusvvvt]);term2 = pinv(sigmaplusvvt);w1wt = (w1; wt);得分= w1wt'* term1 * w1wt  -  w1'* term2 * w1  -  wt' * term2 * wt
得分= 52.4507.

在实践中,测试i向量,以及根据您的系统,注册向量,并不用于G-PLDA模型的训练。在下面的评估部分中,您将使用以前未见过的数据进行注册和验证。支持函数万博1manbetx,gpldaScore封装上面的评分步骤,并额外执行居中、白化和规范化。将训练过的G-PLDA模型保存为与支持功能一起使用的结构体万博1manbetxgpldaScore

gpldamodel = struct('亩'亩,...“WhiteningMatrix”W,...“EigenVoices”V,...'sigma'pinv(λ));

注册

注册不在训练数据集中的新发言者。

使用如下步骤序列为注册集中的每个扬声器的每个文件创建i-vectors:

  1. 特征提取

  2. 鲍姆-韦尔奇统计:确定零阶和一阶统计

  3. i矢量提取

  4. Intersession补偿

然后跨文件的I-Vectors平均为扬声器创建I形载体模型。对每个扬声器重复。

扬声器=唯一(Adsenroll.Labels);NumSpeakers = Numel(扬声器);注册专业eakersbyIdx = Cell(NumSpeakers,1);Tic.议案speakerIdx = 1: numSpeakers%数据存储的子集到你正在适应的扬声器。adspart = subset(adsenroll,adsenroll.labels ==扬声器(扬声器));numFiles =元素个数(adsPart.Files);ivectormat =零(尺寸(proigndmatrix,1),numfiles);fileIdx = 1:numFiles audioData = read(adpart);%提取特征afe, Y = helperFeatureExtraction (audioData normFactors);%计算后验记录可能性logLikelihood = helperGMMLogLikelihood (Y, ubm);%计算后验归一化概率Amax = Max(Loglikelihood,[],1);loglikelihoodsum = amax + log(sum(exp(loglikelihip-amax),1));Gamma = Exp(Loglikelihood  -  loglikelihoodsum)';%计算Baum-Welch统计n =总和(γ1);f = y * gamma  -  n。*(ubmmu);%I  - 矢量提取w = pinv (I + (TS。* repelem (n (:), numFeatures))的f * T * TSi * (:);% Intersession补偿w = proigntmatrix * w;ivectormat(:,fileidx)= w;结尾% i矢量模型注册eAkersbyIdx {speakeridx} =均值(ivectormat,2);结尾fprintf('扬声器注册(%0.0f秒)。\ n',TOC)
扬声器注册(0秒)。

有关簿记目的,将i-vector的单元格数组转换为结构,扬声器ID为字段和i-vectors作为值

注册专业excer;s = 1:numSpeakers enrolledSpeakers.(string(speakers(s)))) = enrolledspeakbyidx {s};结尾

验证

指定CSS或G-PLDA评分方法。

scoringMethod ='gplda'

误拒率(FRR)

扬声器错误拒绝率(FRR)是给定扬声器错误拒绝的速率。为已注册的扬声器i-vector和同一扬声器的i-vectors创建一个分数数组。

speakersToTest =独特(adsDET.Labels);numSpeakers =元素个数(speakersToTest);记分=单元格(NumSpeakers,1);Tic.议案speakerIdx = 1:numSpeakers adpart =子集(adsDET,adsDET. labels ==speakersToTest(speakerIdx));numFiles =元素个数(adsPart.Files);ivectorToTest = enrolledSpeakers。(string (speakersToTest (speakerIdx)));% #好< PFBNS >分数= 0 (numFiles, 1);fileIdx = 1:numFiles audioData = read(adpart);%提取特征afe, Y = helperFeatureExtraction (audioData normFactors);%计算后验记录可能性logLikelihood = helperGMMLogLikelihood (Y, ubm);%计算后验归一化概率Amax = Max(Loglikelihood,[],1);loglikelihoodsum = amax + log(sum(exp(loglikelihip-amax),1));Gamma = Exp(Loglikelihood  -  loglikelihoodsum)';%计算Baum-Welch统计n =总和(γ1);f = y * gamma  -  n。*(ubmmu);%提取矢量iw = pinv (I + (TS。* repelem (n (:), numFeatures))的f * T * TSi * (:);% Intersession补偿w = proigntmatrix * w;% 分数如果strcmpi (scoringMethod'CSS') score(fileIdx) = dot(ivectorToTest,w)/(norm(w)*norm(ivectorToTest));其他的分数(fileIdx) = gpldaScore (gpldaModel w ivectorToTest);结尾结尾得分{speakeridx} =得分;结尾fprintf('FRR计算(%0.0f秒).\n',TOC)
FRR计算(17秒)。

误接受率(FAR)

发言者错误接受率(遥远)是不属于登记扬声器的速率的速度被错误地被接受为属于注册的扬声器。为已注册的扬声器和不同扬声器的i-vers创建一系列分数。

speakersToTest =独特(adsDET.Labels);numSpeakers =元素个数(speakersToTest);scoreFAR =细胞(numSpeakers, 1);Tic.议案speakerIdx = 1:numSpeakers adpart =子集(adsDET,adsDET. labels ~=speakersToTest(speakerIdx));numFiles =元素个数(adsPart.Files);ivectorToTest = enrolledSpeakers。(string (speakersToTest (speakerIdx)));% #好< PFBNS >分数= 0 (numFiles, 1);fileIdx = 1:numFiles audioData = read(adpart);%提取特征afe, Y = helperFeatureExtraction (audioData normFactors);%计算后验记录可能性logLikelihood = helperGMMLogLikelihood (Y, ubm);%计算后验归一化概率Amax = Max(Loglikelihood,[],1);loglikelihoodsum = amax + log(sum(exp(loglikelihip-amax),1));Gamma = Exp(Loglikelihood  -  loglikelihoodsum)';%计算Baum-Welch统计n =总和(γ1);f = y * gamma  -  n。*(ubmmu);%提取矢量iw = pinv (I + (TS。* repelem (n (:), numFeatures))的f * T * TSi * (:);%Intersession补偿w = projectionMatrix * w;% 分数如果strcmpi (scoringMethod'CSS') score(fileIdx) = dot(ivectorToTest,w)/(norm(w)*norm(ivectorToTest));其他的分数(fileIdx) = gpldaScore (gpldaModel w ivectorToTest);结尾结尾记分{speakeridx} =得分;结尾fprintf(` FAR ` (%0.0f秒).\n `,TOC)
FAR计算(17秒)。

等错误率(EER)

要比较多个系统,您需要一个组合FRR性能的单个度量标准。为此,您确定了相同的错误率(eer),这是远程和FRR曲线相遇的阈值。在实践中,eer阈值可能不是最佳选择。例如,如果扬声器验证用作电线传输的多认证方法的一部分,则远远可能比FRR更加重大加权。

阿明= min(猫(scoreFRR {:}, scoreFAR {:}));amax = max(猫(scoreFRR {:}, scoreFAR {:}));thresholdsToTest = linspace (amin amax, 1000);%计算每个阈值的FRR和FAR。如果strcmpi (scoringMethod'CSS'%在CSS中,较大的分数表示注册和测试向量%相似。frr =均值(cat(1,scorefrr {:})阈值);其他的%在G-PLDA中,较小的分数表明注册和测试载体是%相似。FRR =平均值(CAT(1,CASTFRR {:})>阈值);far =平均值(cat(1,scountfar {:})结尾[~,EERThresholdIdx] = min(abs(FAR - FRR));EERThreshold = thresholdsToTest (EERThresholdIdx);无论何时=意味着([(EERThresholdIdx), FRR (EERThresholdIdx)]);图绘制(thresholdsToTest,,“k”...阈值,frr,'B'...EERThreshold,无论何时,“罗”“MarkerFaceColor”'r')标题(Sprintf('等错误率= %0.4f,阈值= %0.4f'无论何时,EERThreshold)包含('临界点') ylabel ('错误率') 传奇(“虚假录取率”'虚假拒绝率(FRR)'“等错误率(EER)”“位置”'最好的事物'网格)

万博1manbetx支持功能

特征提取与归一化

功能(特性,numFrames) = helperFeatureExtraction (afe audioData, normFactors)% 输入:% audioData -音频数据的列向量% afe - audioFeatureExtractor对象% normFactors -用于标准化的特征的平均值和标准偏差。%如果normFactors为空,则不应用标准化。%输出% feature -提取特征的矩阵% numFrames -返回的帧数(特征向量)%正常化audioData = audioData / max (abs (audioData (:)));防nanaudioData (isnan (audioData)) = 0;%隔离语音段idx = detectSpeech (audioData afe.SampleRate);特点= [];ii = 1:size(idx,1) f = extract(afe,audioData(idx(ii,1):idx(ii,2)));特点=[功能;f];%#OK 结尾%功能正常化如果~isempty(normFactors) features = (features-normFactors. mean ')./normFactors. std ';结尾功能=特征';%咽部平均减法(用于信道噪声)如果〜Isempty(符号因素)特征=特征 - 意思(功能,“所有”);结尾numframes =大小(特征,2);结尾

高斯多组分混合物对数 - 可能性

功能l = helpergmmloglikelihike(x,gmm)xminusmu = repmat(x,1,1,numel(gmm.componentproportproportproportproportpor)) -  ermute(gmm.mu,[1,3,2]);permunsigma = ympute(gmm.sigma,[1,3,2]);lunweighted = -0.5 *(sum(log(matutesigma),1)+ sum(xminusmu。*(xminusmu./permutegma),1)+ size(gmm.mu,1)* log(2 * pi));temp =挤压(润滑(Lun Wighted,[1,3,2]));如果尺寸(temp, 1) = = 1%如果只有一帧,则尾随单例维度是%在置换中被移除。这就解释了边缘情况。temp = temp ';结尾L = temp + log(gmm.ComponentProportion)';结尾

G-PLDA得分

功能得分= GPLDASKORE(GPLDAMODEL,W1,WT)%集中数据w1 = w1 - gpldammodel .mu;wt = wt - gpldammodel .mu;%漂白数据= gpldaModel.WhiteningMatrix * 1;wt = gpldaModel.WhiteningMatrix * wt;%长度规范化数据w1 = w1. / vecnorm (w1);wt = wt. / vecnorm (wt);%基于对数似然对i向量的相似性进行评分。VVt = gpldaModel。EigenVoices * gpldaModel.EigenVoices ';SVVt = gpldaModel。σ+ VVt;([SVVt VVt;VVt SVVt]);term2 = pinv (SVVt);w1wt = (w1; wt);Score = w1wt'*term1*w1wt - w1'*term2*w1 - wt'*term2*wt ';结尾

参考文献

[1] Reynolds, Douglas A.等,“使用自适应高斯混合模型的说话人验证”。数字信号处理,卷。10,没有。1-3,2000年1月,第19-41页。DOI.org (Crossref), doi: 10.1006 / dspr.1999.0361。

[2] Kenny, Patrick等,《说话人识别中的联合因素分析与特征通道》。IEEE音频,语音和语言处理汇刊,卷。15,不。4,2007年5月,第1435-47页。DOI.org (Crossref), doi: 10.1109 / TASL.2006.881693。

[3] Kenny, P.等,《说话人验证中说话人变异性的研究》。《IEEE音频、语音和语言处理汇刊》,卷。16,不。5,2008年7月,第980-88页。DOI.org (Crossref), doi: 10.1109 / TASL.2008.925147。

[4] Dehak,Najim,等。“扬声器验证的前端因子分析。”《IEEE音频、语音和语言处理汇刊》第19卷第2期4, 2011年5月,第788-98页。DOI.org (Crossref), doi: 10.1109 / TASL.2010.2064307。

Matejka, Pavel, Ondrej Glembek, Fabio Castaldo, m.j. Alam, Oldrich Plchot, Patrick Kenny, Lukas Burget, Jan cernoky。i-Vector Speaker验证中的全协方差UBM和重尾PLDA2011 IEEE声学、语音和信号处理国际会议(ICASSP),2011. https://doi.org/10.1109/ICASSP.2011.5947436。

[6]斯奈德,大卫等人。“X-Vectors:用于扬声器识别的强大DNN Embeddings。”2018 IEEE声学、语音和信号处理国际会议(ICASSP),ieee,2018,pp。5329-33。DOI.org (Crossref),DOI:10.1109 / ICASSP.2018.8461375。

[7]信号处理和语音通信实验室。进入2019年12月12日。https://www.spsc.tugraz.at/databases-and-tools/ptdb-tug-pitch-tracking-database-from-graz-university-of-technology.html。

[8] Variani, Ehsan等,“用于小足迹文本相关说话人验证的深度神经网络”。2014年IEEE声学,语音和信号处理国际会议(ICASSP), IEEE, 2014, pp. 4052-56。DOI.org (Crossref), doi: 10.1109 / ICASSP.2014.6854363。

[9] Dehak,Najim,RédaDehak,James R. Glass,Douglas A. Reynolds和Patrick Kenny。“余弦相似度得分没有得分标准化技术。”奥德赛(2010)。

维尔马,普尔基特和普拉迪普·k·达斯。i -向量在语音处理中的应用:综述国际语音技术杂志第18卷第2期4, 2015年12月,第529-46页。DOI.org (Crossref),DOI:10.1007 / S10772-015-9295-3。

[11] D. Garcia-Romero和C. Espy-Wilson,“说话人识别系统中的i向量长度归一化分析”。interspeech.,2011年,第249-252页。

[12]肯尼,帕特里克。带有重尾先验的贝叶斯说话人验证。Odyssey 2010 - 演讲者和语言识别研讨会2010年,捷克共和国布尔诺。

[13] Sizov,Aleksandr,Kong Aik Lee和Tomi Kinnunen。“统一概率的线性判别分析在生物识别身份验证中的变体。”计算机科学结构,句法和统计模式识别的讲义, 2014, 464 - 75。https://doi.org/10.1007/978 - 3 - 662 - 44415 - 3 - _47。

[14] Rajan,Padmanabhan,Anton Afanasyev,VilleHautamäki和Tomi Kinnunen。2014年。“从单一到多个注册I-vectors:扬声器验证的实用PLDA评分变体。”数字信号处理31日(8):93 - 101。https://doi.org/10.1016/j.dsp.2014.05.001。