检测音频信号中是否存在语音
这个语音活动检测器
系统对象™ 检测音频段中是否存在语音。您也可以使用语音活动检测器
系统对象输出每个频率仓的噪声方差的估计。
要检测语音的存在,请执行以下操作:
创建语音活动检测器
对象并设置其属性。
使用参数调用对象,就像调用函数一样。
要了解有关系统对象如何工作的更多信息,请参见什么是系统对象?
VAD=语音活动检测器
创建一个系统对象,通过采用
它可以通过每个输入通道独立地检测语音的存在。
VAD=语音活动检测器(
设置每个属性名称、值
)名称
到指定的价值
。未指定的属性具有默认值。
VAD=语音活动检测器('InputDomain','Frequency')
创建一个系统对象,通过采用
,它接受频域输入。
要使用对象函数,请将系统对象指定为第一个输入参数。例如,释放名为的系统对象的系统资源obj
,使用下面的语法:
释放(obj)
这个语音活动检测器
实现中描述的算法[1].
如果输入域
指定为“时间”
,将输入信号加窗,然后根据窗
,SidelobeAttenuation
和FFTLength
属性。如果输入域
如果指定为频率,则假设输入为音频信号的加窗离散时间傅里叶变换(DTFT)。然后将信号转换为功率域。根据[2].后验和前验信噪比根据中描述的最小均方误差(MMSE)公式进行估计[3]. 一个对数似然比测试和基于隐马尔可夫模型(HMM)的挂接方案确定当前帧包含语音的概率,根据[1].
孙[1],Jongseo。,Nam Soo Kim, and Wonyong Sung. "A Statistical Model-Based Voice Activity Detection."信号处理信. 第6卷,第1期,1999年。
[2] 基于最佳平滑和最小统计的噪声功率谱密度估计IEEE语音和音频处理事务2001年第9卷第5期,第504-512页。
[3] 使用最小均方误差短时谱幅度估计器的语音增强IEEE声学、语音和信号处理汇刊第32卷,第6期,1984年,第1109-1121页。