基于最大熵谱估计和时频特性的语音端点检测

资源描述

《基于最大熵谱估计和时频特性的语音端点检测》由会员分享，可在线阅读，更多相关《基于最大熵谱估计和时频特性的语音端点检测（11页珍藏版）》请在金锄头文库上搜索。

1、基于最大熵谱估计和时频特性的语音端点检测陈莹莹简磊四川大学锦江学院电气与电子信息工程学院摘要：语音端点检测对于构建实际语音识别系统具有重要的意义。为了提升在低信噪比条件下语音端点检测算法的性能, 提出一种基于最大熵谱和时频特性的端点检测算法。对分帧后的语音信号通过最大熵估算出功率谱, 并根据带噪语音信号时频域上的特性进行特征捕捉, 从而进行端点检测。实验结果表明, 此方法在较低的信噪比下 (-9 0 dB) 能够比较准确地捕捉语音信号的特征, 明显地提高了端点检测的准确性。关键词：端点检测; 最大熵谱估计; 时频特性; 信噪比; 作者简介：陈莹莹, 讲师, 主研领域:信号检测与识

2、别。作者简介：简磊, 讲师。收稿日期：2016-12-22SPEECH SIGNAL ENDPOINT DETECTION BASED ON MAXIMUM ENTROPY SPECTRUM ESTIMATION AND TIME-FREQUENCY SIGNATUREChen Yingying Jian Lei School of Electrical and Electronic Information Engineering, Jinjiang College, Sichuan University; Abstract： Speech endpoint detection is cruc

3、ial to the construction of a practical automatic speech recognition system.A new algorithm based on the maximum entropy spectrum estimation and time-frequency signature is proposed to improve the performance of speech endpoint detection in low SNR ( Signal Noise Ratio) environment. The framed speech

4、 signal power spectrum was estimated through the maximum entropy, and then the characteristics of noisy speech were extracted in time-frequency field in order to detect the endpoint. Experimental results show that, this method can accurately capture the characteristics of speech signals under lower

5、SNR (-9 0 dB) , and significantly improves the accuracy of endpoint detection.Keyword： Endpoint detection; Maximum entropy spectrum estimation; Time-frequency characteristics; SNR; Received： 2016-12-220 引言语音信号端点检测技术是语音处理中一个重要的前端处理环节。相对有效的端点检测技术不仅能减少语音识别系统中的数据采集量, 大大降低处理时间, 还能去除静音段或噪声段的干扰, 使语音识别系统的性能

6、得以提升。实际的端点检测的目的是从带噪语音中对语音信号进行检测, 因此大大提高了检测的难度, 目前的端点检测最常用的方法比如1:短时过零率、短时能量、双门限法、基于自相关函数的检测, 此类方法原理简单、运算量小, 当信噪较高的时候性能良好, 但是信噪比较低时检测性能大大降低。随着技术发展, 近年来又出现了频带方差2、倒谱系数3、小波4等方法, 这些方法性能上有了很大改善, 但是容易受到噪声的影响, 强噪声环境下检测效果仍然不理想。熵代表一种不确定的信息。不确定的信息越多, 熵值就越大, 而且语音的熵和噪声的熵存在很大区别。Shen5等将谱熵引入到语音信号端点检测中, 由于语音信号存在共振峰结构

7、的特点, 且归一化谱概率密度函数分布不均匀, 所以语音信号的谱熵值与噪声的谱熵相比一般较低, 与噪音信号相比在统计学概率上有区别。由于谱熵值与能量大小无关, 所以谱熵法在带噪环境下检测效果优于其他算法。目前出现了许多基于谱熵的端点检测算法6-7, 信噪比在 0 d B 以上检测效果良好, 为了进一步提高在信噪比较低 (0 d B 以下) 的检测准确性, 提出了一种改进的基于最大熵谱估计的端点检测算法。通过最大熵法求出每帧信号的功率谱分布, 并结合改进的语谱图分析得到基于短时功率谱的新特征参数。最大熵谱估计是一种以数据模型为基础的现代谱估计技术。该算法具有短时性, 对采样点数要求较低, 可以用来

8、分析语音的短时特性, 与短时 FFT 谱相比, 短时最大熵谱的谱线明显平滑, 分辨率也大大提高了, 可以从低信噪比下提取出有用信号。1 理论基础1.1 谱熵法的介绍基于谱熵的语音端点检测方法的思路是利用检测谱的分布程度来实现语音端点检测的目的。为了提高检测效果, 语音信息谱熵采用短时功率谱来计算, 实现了对语音段和噪声段的区分。下面是对谱熵的定义的介绍。设语音信号时域波形为 x (i) , 加窗分帧后的第 i 帧语音信号为 xn (m) , FFT变换为 Xn (k) , k 表示为第 k 条谱线。该语音帧的短时能量为:某一谱线 k 的能量谱为:则每个频率分量的归一化谱概率密度函数为:该语音帧

9、的短时谱熵为:检测方法为:(1) 对语音信号进行分帧加窗处理, 进行 FFT 变换。(2) 得到每帧的谱能量值。(3) 计算得到每帧语音信号的概率密度函数的大小。(4) 经过计算得到每帧语音信号的谱熵值。(5) 通过设置判决门限, 利用各帧的谱熵值最终实现语音端点的检测。从谱熵法的算法推导过程和检测思路可以看出, 谱熵法检测算法重点在于对语音信号的功率谱估计。功率谱估计的传统方法是通过对信号进行傅里叶变换的方法来实现的, 傅里叶变换有比较成熟物理基础, 实现起来较容易, 所以在功率谱估计方面有很大的用途。但是由于传统方法只有当要研究的数据较长也就是采样点多的时候, 功率谱估计精度才比较高。但是

10、这样处理数据的工作量增加了, 而且在研究短信号或者瞬时信号时性能降低。传统的功率谱估计方法进行运算时还必须要引入窗函数, 假设将数据窗以外的数据全部设为零, 就降低了功率谱分辨率, 强信号的主瓣部分淹没了弱信号的主瓣部分等现象, 当处理的数据很短的时候这种影响就变得更加严重6。正是在这一背景下 Burg 于 1967 年提出了以数据模型为基础的最大熵谱估计方法, 该算法根据少量的采样数据便可获得高频谱分辨率的功率谱估计。所以比较适合分析短时信号, 比如包含 128 个采样点的一帧语音信号。最大熵方法, 把关于过程的自相关函数无限外推, 大大提高了估计得到的功率谱分辨率, 所以与经典的方法相比,

11、最大熵方法在对功率谱的质量要求较高时, 弥补了传统方法的不足。1.2 最大熵谱估计算法描述通过最大熵谱方法进行功率谱估计的基本思路8:对于已知有限延迟点上的自相关函数值保持不变;对于未知延迟点自相关函数, 不进行其他任何假设, 基于最大熵准则, 利用已知的有限数据用无限外推法的方法求得, 从而估计出被测信号的功率谱密度。首先熵的定义为9:可见熵是消息源发出每个消息的平均信息量, 当随机变量为对于高斯分布的时候, 布卡乔夫证明了在信息熵和自协方差矩阵间存在着以下关系:当时间序列为零均值时 (当均值不为零, 可以用时间序列减去均值的方法进行处理) , 熵和自相关函数之间存在关系:当过程为无限长时

12、, 用熵率作为信息的度量如下所示:时间序列功率谱密度和熵率存在着如下关系:其中:离散的时间序列频率为-f c, fc。离散的时间序列的相关函数为:离散的时间序列的功率谱可表示为:当满足条件时可以计算得到最大熵谱密度估计值为:最大熵谱估计的主要在于求出式 (11) 中的各参数, 即求出预测误差滤波器输出的预测误差功率最小值 pmin和预测误差滤波器系数 am。方法主要包括Levinson-Durbin 递推算法和 Burg 算法。对于 Burg 递推算法, 它的主要思想是只从研究的离散时间序列本身出发, 与最大熵保持一致的是对延拓的数据部分不进行任何先验假设, 所以得到了广泛应用。Burg 算

13、法首先利用前向预测误差功率和后向预测误差功率两者总均方差之和为最小的方法来求解得到反射系数, 从而计算出预测误差滤波器系数。通过 Burg 法计算最大熵功率谱主要包括以下几个步骤10:(1) 对离散时间序列进行中心化处理, 保证离散时间序列 x (n) 的均值不为零, 如为零, 则先将 x (n) 去均值。(3) 通过相关计算得到反射系数 km。(4) 计算前向、后向的预测滤波器系数分别为:(6) 计算滤波器输出:(7) 令 M=M+1, 并重复步骤 (3) 至步骤 (6) , 直到预测误差功率不再明显减小。其中:预测误差滤波器阶数为 M, 采样序列长度为 N, 向前预测误差为, 向后预测误差

14、为1.3 最大熵谱估计阶数的选择预测误差滤波器阶数的选择在最大熵谱估计过程中很重要, 所以必须要正确选择模型的阶数。假设模型阶数为 M, 采样序列长度为 N, 如果选择的 M 值太小, 通过最大熵方法估计得到的离散时间序列的功率谱会过度的平滑, 分辨率较低, 从而出现被研究信号中最容易预测, 变化最缓慢的频点的峰值。反之, 如果 M太大, 会使拟合产生急剧的变化, 得到的谱估计中包含虚假的细节部分, 降低谱估计的准确性。为了使选择的滤波器最佳, 这里用 Mopt表示, 可以采用下面三种方法:自回归 (CAT) 传递函数准则、信息论 (AIC) 准则和最终预测误差 (FPE) 准则。以上三种实现

15、方法在高信噪比时确定的阶数基本一致。而在低信噪比情况下, 三种方法得到的结果不同, 得到的滤波器阶数偏低。其中 FPE 方法较另外两种更为正确。通过上面三种准则, 都可以在计算预测滤波器参数 (a k、p min) 的每一次递推中求解得到所要确定的阶数。因为最大熵谱估计等价与预测滤波器方法, 而在预测滤波器中误差功率的最小值 pmin, 存在下面的结论:0p minpmin, 因此为了得到 Mopt, 将算出的新旧值作比较, 若新值大于以前的值, 就停止迭代过程。2 语音信号的时频特性介绍语音的发音过程中经过的器官之一声道通常都是处不稳定状态的, 所以得到了时变的共振峰特性。但是与振动过程相比

16、, 这个时变过程比较缓慢, 在研究过程中可以假设它具有短时平稳性, 每一时刻的频谱可以用这时刻附近的一段短时语音信号得到, 比如 12 ms 的时间段。连续地对语音信号进行频谱分析可以得到关于语音的一种二维图谱, 在图中时间为横坐标, 频率为纵坐标, 对应时刻和对应频率的信号能量密度用每像素的灰度值大小表示, 能量越大颜色越深, 能量越小颜色越浅。通过这种方法得到时频图为语谱图 (Spectrogam) 11。很多与语音特性有关的信息包含在语谱图中, 并且这种时频图结合了频谱图和时域图的特点, 明显地显示出语音动态的频谱, 即随时间变化的频谱特性, 被视为可视语言的时频图在语音分析中有重要实用价值。对于发音器官, 任一时刻共振峰特征、基音频率、是否清音和爆破音等参数都可以从语谱图上得到。总之, 在语音识别、合成及编码中语谱分析具有很重要的意义。图 1 为语音信号“我到黑龙江”的语谱图, 通过图中可以看到花纹有横条纹和竖条纹。其中横条纹反映的是共振峰特性, 参数值为与

展开阅读全文

基于最大熵谱估计和时频特性的语音端点检测

最新文档