主要内容gydF4y2Ba

gtccgydF4y2Ba

提取gammatone倒谱系数、对数能量、增量和增量gydF4y2Ba

描述gydF4y2Ba

例子gydF4y2Ba

多项式系数gydF4y2Ba=gtcc(gydF4y2Ba音频素gydF4y2Ba,gydF4y2BafsgydF4y2Ba)gydF4y2Ba返回音频输入的伽玛通倒频谱系数(GTCCs),采样频率为gydF4y2BafsgydF4y2Ba赫兹。gydF4y2Ba

例子gydF4y2Ba

多项式系数gydF4y2Ba=gtcc(gydF4y2Ba___gydF4y2Ba,gydF4y2Ba名称,值gydF4y2Ba)gydF4y2Ba指定使用一个或多个选项的选项gydF4y2Ba名称,值gydF4y2Ba对参数。gydF4y2Ba

例子gydF4y2Ba

[gydF4y2Ba多项式系数gydF4y2Ba,gydF4y2Ba希腊字母表的第4个字母gydF4y2Ba,gydF4y2Ba三角洲gydF4y2Ba,gydF4y2BalocgydF4y2Ba) = gtcc (gydF4y2Ba___gydF4y2Ba)gydF4y2Ba还返回与每个数据窗口相对应的样本中的delta、delta-delta和位置。gydF4y2Ba

例子gydF4y2Ba

全部崩溃gydF4y2Ba

使用默认设置获取音频文件的gammatone倒谱系数。绘制结果。gydF4y2Ba

[audioIn,fs]=音频读取(gydF4y2Ba“Counting-16-44p1-mono-15secs.wav”gydF4y2Ba);(多项式系数,~,~,loc) = gtcc (audioIn fs);t = loc. / fs;情节(t,多项式系数)包含(gydF4y2Ba‘时间’gydF4y2Ba)头衔(gydF4y2Ba“伽马通倒谱系数”gydF4y2Ba)传奇(gydF4y2Ba“洛格”gydF4y2Ba,gydF4y2Ba' 0 'gydF4y2Ba,gydF4y2Ba' 1 'gydF4y2Ba,gydF4y2Ba' 2 'gydF4y2Ba,gydF4y2Ba“3”gydF4y2Ba,gydF4y2Ba“4”gydF4y2Ba,gydF4y2Ba“5”gydF4y2Ba,gydF4y2Ba“6”gydF4y2Ba,gydF4y2Ba'7'gydF4y2Ba,gydF4y2Ba'8'gydF4y2Ba,gydF4y2Ba'9'gydF4y2Ba,gydF4y2Ba“十”gydF4y2Ba,gydF4y2Ba“11”gydF4y2Ba,gydF4y2Ba“12”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“位置”gydF4y2Ba,gydF4y2Ba“northeastoutside”gydF4y2Ba)gydF4y2Ba

图中包含一个轴对象。标题为Gammatone倒谱系数的axes对象包含14个line类型的对象。这些对象表示logE、0、1、2、3、4、5、6、7、8、9、10、11、12。gydF4y2Ba

读入音频文件。gydF4y2Ba

[audioIn,fs]=音频读取(gydF4y2Ba“涡轮机-16-44p1-mono-22秒波形”gydF4y2Ba);gydF4y2Ba

使用在ERB刻度上等距分布的滤波器计算20 GTCCgydF4y2Bahz2erb (62.5)gydF4y2Ba和gydF4y2Bahz2erb (12000)gydF4y2Ba. 使用重叠25ms的50ms周期Hann窗计算系数。用对数能量替换第0个系数。使用时域滤波。gydF4y2Ba

[coeffs,~,~,loc]=gtcc(audioIn,fs,gydF4y2Ba...gydF4y2Ba“NumCoeffs”gydF4y2Ba,20,gydF4y2Ba...gydF4y2Ba“频率范围”gydF4y2Ba(62.5, 12000),gydF4y2Ba...gydF4y2Ba“窗口”gydF4y2Ba,损害(圆(0.05 * fs),gydF4y2Ba“周期”gydF4y2Ba),gydF4y2Ba...gydF4y2Ba“重叠长度”gydF4y2Ba,圆形(0.025*fs),gydF4y2Ba...gydF4y2Ba“LogEnergy”gydF4y2Ba,gydF4y2Ba“替换”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“FilterDomain”gydF4y2Ba,gydF4y2Ba“时间”gydF4y2Ba);gydF4y2Ba

绘制结果。gydF4y2Ba

t=loc/fs;绘图(t,系数)xlabel(gydF4y2Ba‘时间’gydF4y2Ba)头衔(gydF4y2Ba“伽马通倒谱系数”gydF4y2Ba)传奇(gydF4y2Ba“洛格”gydF4y2Ba,gydF4y2Ba' 1 'gydF4y2Ba,gydF4y2Ba' 2 'gydF4y2Ba,gydF4y2Ba“3”gydF4y2Ba,gydF4y2Ba“4”gydF4y2Ba,gydF4y2Ba“5”gydF4y2Ba,gydF4y2Ba“6”gydF4y2Ba,gydF4y2Ba'7'gydF4y2Ba,gydF4y2Ba'8'gydF4y2Ba,gydF4y2Ba'9'gydF4y2Ba,gydF4y2Ba“十”gydF4y2Ba,gydF4y2Ba“11”gydF4y2Ba,gydF4y2Ba“12”gydF4y2Ba,gydF4y2Ba“13”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“14”gydF4y2Ba,gydF4y2Ba“15”gydF4y2Ba,gydF4y2Ba“16”gydF4y2Ba,gydF4y2Ba'17'gydF4y2Ba,gydF4y2Ba'18'gydF4y2Ba,gydF4y2Ba'19'gydF4y2Ba,gydF4y2Ba“位置”gydF4y2Ba,gydF4y2Ba“northeastoutside”gydF4y2Ba);gydF4y2Ba

图中包含一个轴对象。标题为“伽玛通Cepstral系数”的轴对象包含20个类型为line的对象。这些对象代表对数,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19。gydF4y2Ba

读入音频文件并将其转换为频率表示。gydF4y2Ba

[audioIn,fs]=音频读取(gydF4y2Ba“彩虹-16-8-mono-114s.wav”gydF4y2Ba);温=汉恩(1024,gydF4y2Ba“周期”gydF4y2Ba);S = stft (audioIngydF4y2Ba“窗口”gydF4y2Ba赢gydF4y2Ba“OverlapLength”gydF4y2Ba,512,gydF4y2Ba“居中”gydF4y2Ba,假);gydF4y2Ba

要提取gammatone倒谱系数,请调用gydF4y2BagtccgydF4y2Ba与频域音频。忽略对数能量。gydF4y2Ba

多项式系数= gtcc(年代,fs,gydF4y2Ba“LogEnergy”gydF4y2Ba,gydF4y2Ba“忽略”gydF4y2Ba);gydF4y2Ba

在许多应用中,GTCC观测值被转换为摘要统计数据,用于分类任务。绘制其中一个gammatone倒谱系数的概率密度函数,以观察其分布。gydF4y2Ba

nbins=60;分析系数=gydF4y2Ba4gydF4y2Ba;直方图(系数(:,分析系数+1),NBIN,gydF4y2Ba“正常化”gydF4y2Ba,gydF4y2Ba“pdf”gydF4y2Ba)头衔(斯普林特)(gydF4y2Ba“系数%d”gydF4y2Ba, coefficientToAnalyze))gydF4y2Ba

图中包含一个轴对象。标题系数为4的轴对象包含一个直方图类型的对象。gydF4y2Ba

输入参数gydF4y2Ba

全部崩溃gydF4y2Ba

输入信号,指定为矢量、矩阵或三维阵列。gydF4y2Ba

如果gydF4y2Ba过滤域gydF4y2Ba'被设置为gydF4y2Ba“频率”gydF4y2Ba(默认),然后gydF4y2Ba音频素gydF4y2Ba可以是真实的,也可以是复杂的。gydF4y2Ba

  • 如果gydF4y2Ba音频素gydF4y2Ba是实的,它被解释为时域信号,必须是列向量或矩阵。矩阵的列被视为独立的音频通道。gydF4y2Ba

  • 如果gydF4y2Ba音频素gydF4y2Ba是复杂的,它被解释为频域信号。在这种情况下,gydF4y2Ba音频素gydF4y2Ba一定是一个gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba-借-gydF4y2BaNgydF4y2Ba数组,在哪里gydF4y2BalgydF4y2Ba是DFT点数,gydF4y2Ba米gydF4y2Ba是单个光谱的数量,以及gydF4y2BaNgydF4y2Ba是单个通道的数量。gydF4y2Ba

如果gydF4y2Ba过滤域gydF4y2Ba'被设置为gydF4y2Ba“时间”gydF4y2Ba,然后gydF4y2Ba音频素gydF4y2Ba必须是实列向量或矩阵。矩阵的列被视为独立的音频通道。gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba
复数的支持:万博1manbetxgydF4y2Ba对gydF4y2Ba

输入信号的采样率,以Hz为单位,指定为正标量。gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

名称-值参数gydF4y2Ba

指定可选的逗号分隔的对gydF4y2Ba名称,值gydF4y2Ba论据。gydF4y2Ba名称gydF4y2Ba参数名和gydF4y2Ba价值gydF4y2Ba是对应的值。gydF4y2Ba名称gydF4y2Ba必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:gydF4y2BaName1, Value1,…,的家gydF4y2Ba.gydF4y2Ba

例子:gydF4y2Ba多项式系数= gtcc (audioIn、fs“LogEnergy”,“替换”)gydF4y2Ba返回在上采样的音频输入信号的gammatone倒谱系数gydF4y2BafsgydF4y2Ba赫兹。对于每个分析窗口,在gydF4y2Ba多项式系数gydF4y2Ba用输入信号的对数能量替换矢量。gydF4y2Ba

应用于时域的窗口,指定为逗号分隔对,由gydF4y2Ba“窗口”gydF4y2Ba一个实向量。向量中的元素数必须在该范围内gydF4y2Ba1、大小(gydF4y2Ba音频素gydF4y2Ba,1)]gydF4y2Ba.向量中的元素数也必须大于gydF4y2Ba重叠长度gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

相邻窗口之间重叠的样本数,指定为逗号分隔对,由gydF4y2Ba“重叠长度”gydF4y2Ba和范围为[0]的整数,gydF4y2Ba努梅尔(gydF4y2Ba窗gydF4y2Ba)gydF4y2Ba)。如未指明,gydF4y2Ba重叠长度gydF4y2Ba默认为gydF4y2Ba圆形(0.02*gydF4y2BafsgydF4y2Ba)gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

为每个数据窗口返回的系数数,指定为逗号分隔对,由gydF4y2Ba“NumCoeffs”gydF4y2Ba和一个范围为[2,gydF4y2BavgydF4y2Ba].gydF4y2BavgydF4y2Ba是有效的密码带数。如果未指定的,gydF4y2BaNumCoeffsgydF4y2Ba默认为gydF4y2Ba13gydF4y2Ba.gydF4y2Ba

有效通带数定义为ERB步数(ERBgydF4y2BaNgydF4y2Ba)在滤波器组的频率范围内。滤波器组的频率范围由gydF4y2BaFrequencyRangegydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

要应用筛选的域,指定为逗号分隔对,由gydF4y2Ba“FilterDomain”gydF4y2Ba和gydF4y2Ba“频率”gydF4y2Ba或gydF4y2Ba“时间”gydF4y2Ba。如未指明,gydF4y2Ba过滤域gydF4y2Ba默认为gydF4y2Ba频率gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba一串gydF4y2Ba|gydF4y2Ba烧焦gydF4y2Ba

gammatone滤波器组的频率范围(以Hz为单位),指定为逗号分隔对,包括gydF4y2Ba“频率范围”gydF4y2Ba以及在[0]范围内增加值的两元素行向量,gydF4y2BafsgydF4y2Ba/2] 。如未指明,gydF4y2BaFrequencyRangegydF4y2Ba默认为gydF4y2Ba[50,gydF4y2BafsgydF4y2Ba/2]gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

用于计算加窗输入样本的离散傅里叶变换(DFT)的存储单元数。FFT长度必须大于或等于存储单元中的元素数gydF4y2Ba窗gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

应用于离散余弦变换之前的非线性校正类型,具体为gydF4y2Ba“日志”gydF4y2Ba或gydF4y2Ba“立方根”gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba烧焦gydF4y2Ba|gydF4y2Ba一串gydF4y2Ba

用于计算delta和delta-delta值的系数数,指定为由逗号分隔的对组成gydF4y2Ba“DeltaWindowLength”gydF4y2Ba和大于2的奇数整数。如果未指定,gydF4y2BaDeltaWindowLengthgydF4y2Ba默认为gydF4y2Ba9gydF4y2Ba.gydF4y2Ba

使用gydF4y2Ba音频三角洲gydF4y2Ba函数。gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

记录能量使用情况,指定为逗号分隔对,由gydF4y2Ba“LogEnergy”gydF4y2Ba和gydF4y2Ba“添加”gydF4y2Ba,gydF4y2Ba“替换”gydF4y2Ba或gydF4y2Ba“忽略”gydF4y2Ba。如未指明,gydF4y2BaLogEnergygydF4y2Ba默认为gydF4y2Ba“添加”gydF4y2Ba.gydF4y2Ba

  • “添加”gydF4y2Ba这个函数把能量的对数加到系数向量上。系数向量的长度是1 +gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • “替换”gydF4y2Ba——函数用信号的对数能量替换第一个系数。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • “忽略”gydF4y2Ba–该函数不计算或返回对数能量。gydF4y2Ba

数据类型:gydF4y2Ba烧焦gydF4y2Ba|gydF4y2Ba一串gydF4y2Ba

输出参数gydF4y2Ba

全部崩溃gydF4y2Ba

Gammatone倒谱系数,作为gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba矩阵或gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba-借-gydF4y2BaNgydF4y2Ba数组,其中:gydF4y2Ba

  • lgydF4y2Ba——音频信号被分割成的分析窗口的数量。输入的大小,gydF4y2Ba窗gydF4y2Ba和gydF4y2Ba重叠长度gydF4y2Ba控制此维度:gydF4y2BalgydF4y2Ba=地板((尺寸)(gydF4y2Ba音频素gydF4y2Ba,1) − 努梅尔(gydF4y2Ba窗gydF4y2Ba))) / (gydF4y2Ba元素个数(窗口)gydF4y2Ba−gydF4y2Ba重叠长度gydF4y2Ba) + 1gydF4y2Ba.gydF4y2Ba

  • 米gydF4y2Ba–每帧返回的系数数。该值由gydF4y2BaNumCoeffsgydF4y2Ba和gydF4y2BaLogEnergygydF4y2Ba.gydF4y2Ba

    什么时候gydF4y2BaLogEnergygydF4y2Ba设置为:gydF4y2Ba

    • “添加”gydF4y2Ba——该函数将对数能量值附加到系数向量上。系数向量的长度是1 +gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

    • “替换”gydF4y2Ba——函数用信号的对数能量替换第一个系数。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

    • “忽略”gydF4y2Ba–该函数不计算或返回对数能量。系数向量的长度为gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • NgydF4y2Ba——输入通道数(列)。这个值是gydF4y2Ba大小(gydF4y2Ba音频素gydF4y2Ba,2)gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

从一个分析窗口到另一个分析窗口的系数变化,作为gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba矩阵或gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba-借-gydF4y2BaNgydF4y2Ba数组gydF4y2Ba希腊字母表的第4个字母gydF4y2Ba数组的大小和数据类型与gydF4y2Ba多项式系数gydF4y2Ba大堆看见gydF4y2Ba多项式系数gydF4y2Ba有关gydF4y2BalgydF4y2Ba,gydF4y2Ba米gydF4y2Ba和gydF4y2BaNgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

变化gydF4y2Ba希腊字母表的第4个字母gydF4y2Ba值,作为gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba矩阵或gydF4y2BalgydF4y2Ba-借-gydF4y2Ba米gydF4y2Ba-借-gydF4y2BaNgydF4y2Ba数组gydF4y2Ba三角洲gydF4y2Ba数组的大小和数据类型与gydF4y2Ba多项式系数gydF4y2Ba和gydF4y2Ba希腊字母表的第4个字母gydF4y2Ba数组。看见gydF4y2Ba多项式系数gydF4y2Ba有关gydF4y2BalgydF4y2Ba,gydF4y2Ba米gydF4y2Ba和gydF4y2BaNgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

在每个分析窗口中最后一个样本的位置,作为具有相同行数的列向量返回gydF4y2Ba多项式系数gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba仅有一个的gydF4y2Ba|gydF4y2Ba双重的gydF4y2Ba

算法gydF4y2Ba

全部崩溃gydF4y2Ba

的gydF4y2BagtccgydF4y2Ba函数将整个数据分割成重叠的部分。每个分析窗口的长度由gydF4y2Ba窗gydF4y2Ba.分析窗口之间的重叠长度由gydF4y2Ba重叠长度gydF4y2Ba。确定gammatone倒谱系数的算法取决于滤波器域,由gydF4y2Ba过滤域gydF4y2Ba默认的过滤域是频率。gydF4y2Ba

频域滤波gydF4y2Ba

伽玛通倒谱系数是从语音信号中提取的常用特征,用于识别任务。在语音的源-滤波模型中,倒谱系数被理解为表示滤波器(声道)。声道的频率响应相对平稳,而浊音源可以建模为脉冲序列。因此,可以通过语音片段的频谱包络来估计声道。gydF4y2Ba

gammatone倒谱系数的激励思想是基于对耳蜗的理解,将有关声道(平滑频谱)的信息压缩为少量系数。虽然没有计算系数的硬标准,但图表概述了基本步骤。gydF4y2Ba

默认的伽玛通滤波器组是由伽玛通滤波器在ERB尺度上在50到8000赫兹之间线性间隔组成的。滤波器组由gydF4y2Ba设计审计过滤银行gydF4y2Ba.gydF4y2Ba

第零伽马通倒谱系数中包含的信息通常会被对数能量增加或替换。对数能量的计算取决于输入域。gydF4y2Ba

如果输入为时域信号,则使用以下等式计算对数能量:gydF4y2Ba

日志gydF4y2Ba EgydF4y2Ba =gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba 总和gydF4y2Ba (gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba )gydF4y2Ba )gydF4y2Ba

如果输入是频域信号,则使用以下等式计算对数能量:gydF4y2Ba

日志gydF4y2Ba EgydF4y2Ba =gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba 总和gydF4y2Ba (gydF4y2Ba |gydF4y2Ba xgydF4y2Ba |gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba /gydF4y2Ba FgydF4y2Ba FgydF4y2Ba TgydF4y2Ba lgydF4y2Ba egydF4y2Ba ngydF4y2Ba ggydF4y2Ba tgydF4y2Ba hgydF4y2Ba )gydF4y2Ba

时域滤波gydF4y2Ba

如果gydF4y2Ba过滤域gydF4y2Ba指定为gydF4y2Ba“时间”gydF4y2Ba,gydF4y2BagtccgydF4y2Ba函数使用gydF4y2BagammatoneFilterBankgydF4y2Ba应用时域滤波的基本步骤gydF4y2BagtccgydF4y2Ba该图概述了算法。gydF4y2Ba

的gydF4y2BaFrequencyRangegydF4y2Ba抽样率(gydF4y2BafsgydF4y2Ba)使用输入到过滤器的名称-值对在过滤器组上设置参数gydF4y2BagtccgydF4y2Ba函数。伽玛通滤波器组中滤波器的数量定义为gydF4y2Bahz2erbgydF4y2Ba(gydF4y2BaFrequencyRangegydF4y2Ba(2)−)gydF4y2Bahz2erbgydF4y2Ba(gydF4y2BaFrequencyRangegydF4y2Ba(1))gydF4y2Ba这大致相当于每0.9毫米在耳蜗中放置一个伽玛通过滤器。gydF4y2Ba

gammatone滤波器组的输出为多通道信号。gammatone滤波器组的每个通道输出缓冲到重叠的分析窗口中,如gydF4y2Ba窗gydF4y2Ba和gydF4y2Ba重叠长度gydF4y2Ba参数。计算每个数据分析窗口的能量。通道的STE被连接起来。然后,级联信号通过对数函数,并使用离散余弦变换(DCT)变换到倒谱域。gydF4y2Ba

使用应用于gammatone滤波器组输出的相同缓冲方案,对原始音频信号计算对数能量。gydF4y2Ba

兼容性考虑gydF4y2Ba

全部展开gydF4y2Ba

R2020b中的行为发生了变化gydF4y2Ba

未来版本中的行为更改gydF4y2Ba

参考文献gydF4y2Ba

[1]邵阳,金兆章,王德良,sondararajan Srinivasan。“基于听觉的鲁棒语音识别特征”。gydF4y2BaIEEE声学、语音和信号处理国际会议gydF4y2Ba. 2009.gydF4y2Ba

[2] Gammatone倒谱系数:非语音音频分类的生物启发特征gydF4y2BaIEEE多媒体期刊gydF4y2Ba.第14卷,第6期,2012,1684-1689页。gydF4y2Ba

扩展能力gydF4y2Ba

C/C++代码生成gydF4y2Ba
使用Matlab®编码器生成C和C++代码™.gydF4y2Ba

介绍了R2019agydF4y2Ba