声音活动检测器

检测音频信号中的语音存在

全部展开页面

库:
音频工具箱/测量

描述

的声音活动检测器块检测音频信号中语音的存在。你也可以用the声音活动检测器块输出每个频率仓的噪声方差的估计。

港口

输入

全部展开

`x`- - - - - -输入信号
矩阵|一维向量

矩阵输入 - 输入的每列被视为独立信道。
1-D向量输入 - 输入被视为单个通道。

这个端口是未命名的，除非您指定其他输入端口。

数据类型:单|双

`SilenceToSpeech`-阈值(dB)
[0,1]范围内的标量

依赖关系

要启用此端口，请选择指定从输入端口静音到语音的概率为了从沉默帧转换到语音框架的概率参数。

数据类型:单|双

`语音特征`-阈值(dB)
[0,1]范围内的标量

依赖关系

要启用此端口，请选择从输入端口指定语音到静音的概率为了从讲话框架过渡到沉默框架的概率参数。

数据类型:单|双

输出

全部展开

`P`- 演讲的概率存在
标量|行矢量

块输出与输入信号具有相同列数的标量或行向量。

此端口是未命名的，直到您选择输出噪声方差参数。

数据类型:单|双

`N`- 估计每个频率箱的噪声方差
列向量|矩阵

块输出与输入信号具有相同列数的列向量或矩阵。

依赖关系

要启用该端口，请选择输出噪声方差参数。

数据类型:单|双

参数

全部展开

如果参数被列为可调参数，那么您可以在模拟过程中更改其值。

`输入域`—输入域
`时间`(默认)|`频率`

`窗口`- FFT之前应用的窗口函数
`损害`(默认)|`Chebyshev.`|`扁头`|`汉明`|`凯撒`|`矩形`

窗口功能使用以下功能的算法设计：

损害- - -损害
Chebyshev.- - -chebwin
扁头- - -flattopwin
汉明- - -汉字
凯撒- - -凯泽

可调:不

依赖关系

要启用该参数，请设置输入域来时间．

`窗口的侧瓣衰减（DB）`- 窗口窗口衰减（DB）
`60`(默认)|积极的有限标量

依赖关系

要启用该参数，请设置输入域来时间和窗口来Chebyshev.或者凯撒．

数据类型:单|双

`从输入维度继承FFT长度`—FFT长度设置为输入采样个数
开启(默认)|关闭

可调:不

依赖关系

要启用该参数，请设置输入域来时间．

`FFT长度`- 频域中的箱数
`1024`(默认)|正整数

可调:不

依赖关系

要启用该参数，请设置输入域来时间并清楚地清除从输入维度继承FFT长度参数。

数据类型:单|双

`从沉默帧转换到语音框架的概率`-在沉默框架之后出现讲话框架的概率
`0.2`(默认)|范围内的标量[0,1]

指定从沉默帧转换到语音框架的概率从输入端口，选择指定从输入端口静音到语音的概率．

可调:是的

数据类型:单|双

`从讲话框架过渡到沉默框架的概率`- 沉默框架遵循语音帧的概率
`0.1`(默认)|范围内的标量[0,1]

指定从讲话框架过渡到沉默框架的概率从输入端口，选择从输入端口指定语音到静音的概率．

可调:是的

数据类型:单|双

`输出噪声方差`-每个频率仓的噪声方差的输出估计
`离开`(默认)|`在`

当你选择这个参数时，一个额外的输出端口，N，被添加到块中。

`模拟使用`-指定要运行的模拟类型
`代码生成`(默认)|`解释执行`

代码生成- 使用生成的C代码模拟模型。您第一次运行模拟，Simulink万博1manbetx^®为代码块生成C代码。只要模型不改变，C代码就可以用于后续的模拟。此选项需要额外的启动时间，但后续模拟的速度可与解释执行．
解释执行- 使用MATLAB模拟模型^®翻译。此选项减少启动时间，但模拟速度较慢代码生成．在此模式下，您可以调试块的源代码。

可调:不

模型的例子

检测言语存在

该模型使用语音活动检测器块可视化音频信号中语音存在的概率。

使用VAD的栅极音频信号

此模型使用 - else块信号路由以替换与零的任何语音的区域。

频域语音活动检测

该模型使用频域音频信号检测语音活动。

可视化噪声功率

该模型绘制出语音活动检测器估计的噪声功率。

块特征

数据类型	`双`\|`单`
直接喂养	`不`
多维信号	`不`
适应信号	`不`
讨论二阶导数过零检测	`不`

算法

的声音活动检测器实现所描述的算法[1]．

如果输入域被指定为时间时，对输入信号加窗，然后根据窗口，窗口的侧瓣衰减（DB），和FFT长度参数。如果输入域被指定为频率，输入为音频信号的加窗离散时间傅里叶变换(DTFT)。然后信号被转换到功率域。噪声方差估计根据［２］．根据最小均方误差(MMSE)公式估计后验信噪比和先验信噪比［3］．采用基于隐马尔可夫模型(HMM)的延迟方案进行对数似然比检验[1]．

参考

孙[1],Jongseo。，Nam Soo Kim, and Wonyong Sung. "A Statistical Model-Based Voice Activity Detection."信号处理字母IEEE．1999年第6卷第1期。

[2]马丁,R。基于最优平滑和最小统计量的噪声功率谱密度估计。IEEE语音和音频处理汇刊．第9卷第5期，2001年，第504-512页。

以法莲，Y.和D.玛拉。用最小均方误差短时谱振幅估计器增强语音。声学，语音和信号处理的IEEE交易．1984年第32卷第6期，1109-1121页。

扩展功能

C / C ++代码生成
使用Simulink®Coder™生成C和c++代码。万博1manbetx

另请参阅

voiceActivityDetector

介绍了R2018a

音频工具箱文档

万博1manbetx

尝试MATLAB, Si万博1manbetxmulink和其他产品s manbetx 845

得到审判现在

声音活动检测器

描述

港口

输入

x- - - - - -输入信号矩阵|一维向量

SilenceToSpeech-阈值(dB)[0,1]范围内的标量

依赖关系

语音特征-阈值(dB)[0,1]范围内的标量

依赖关系

输出

P- 演讲的概率存在标量|行矢量

N- 估计每个频率箱的噪声方差列向量|矩阵

依赖关系

参数

输入域—输入域时间(默认)|频率

窗口- FFT之前应用的窗口函数损害(默认)|Chebyshev.|扁头|汉明|凯撒|矩形

依赖关系

窗口的侧瓣衰减（DB）- 窗口窗口衰减（DB）60(默认)|积极的有限标量

依赖关系

从输入维度继承FFT长度—FFT长度设置为输入采样个数开启(默认)|关闭

依赖关系

FFT长度- 频域中的箱数1024(默认)|正整数

依赖关系

从沉默帧转换到语音框架的概率-在沉默框架之后出现讲话框架的概率0.2(默认)|范围内的标量[0,1]

从讲话框架过渡到沉默框架的概率- 沉默框架遵循语音帧的概率0.1(默认)|范围内的标量[0,1]

输出噪声方差-每个频率仓的噪声方差的输出估计离开(默认)|在

模拟使用-指定要运行的模拟类型代码生成(默认)|解释执行

模型的例子

检测言语存在

使用VAD的栅极音频信号

频域语音活动检测

可视化噪声功率

块特征

算法

参考

扩展功能

C / C ++代码生成使用Simulink®Coder™生成C和c++代码。万博1manbetx

另请参阅

音频工具箱文档

万博1manbetx

尝试MATLAB, Si万博1manbetxmulink和其他产品s manbetx 845

`x`- - - - - -输入信号
矩阵|一维向量

`SilenceToSpeech`-阈值(dB)
[0,1]范围内的标量

`语音特征`-阈值(dB)
[0,1]范围内的标量

`P`- 演讲的概率存在
标量|行矢量

`N`- 估计每个频率箱的噪声方差
列向量|矩阵

`输入域`—输入域
`时间`(默认)|`频率`

`窗口`- FFT之前应用的窗口函数
`损害`(默认)|`Chebyshev.`|`扁头`|`汉明`|`凯撒`|`矩形`

`窗口的侧瓣衰减（DB）`- 窗口窗口衰减（DB）
`60`(默认)|积极的有限标量

`从输入维度继承FFT长度`—FFT长度设置为输入采样个数
开启(默认)|关闭

`FFT长度`- 频域中的箱数
`1024`(默认)|正整数

`从沉默帧转换到语音框架的概率`-在沉默框架之后出现讲话框架的概率
`0.2`(默认)|范围内的标量[0,1]

`从讲话框架过渡到沉默框架的概率`- 沉默框架遵循语音帧的概率
`0.1`(默认)|范围内的标量[0,1]

`输出噪声方差`-每个频率仓的噪声方差的输出估计
`离开`(默认)|`在`

`模拟使用`-指定要运行的模拟类型
`代码生成`(默认)|`解释执行`

C / C ++代码生成
使用Simulink®Coder™生成C和c++代码。万博1manbetx