第三章 语音信号分析

上传人:012****78 文档编号:132711903 上传时间:2020-05-19 格式:PPT 页数:31 大小:528.50KB
返回 下载 相关 举报
第三章 语音信号分析_第1页
第1页 / 共31页
第三章 语音信号分析_第2页
第2页 / 共31页
第三章 语音信号分析_第3页
第3页 / 共31页
第三章 语音信号分析_第4页
第4页 / 共31页
第三章 语音信号分析_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《第三章 语音信号分析》由会员分享,可在线阅读,更多相关《第三章 语音信号分析(31页珍藏版)》请在金锄头文库上搜索。

1、第三章语音信号分析 3 8基因周期估计3 9共振峰估计 3 8基因周期估计 基音是指发浊音时声带振动所引起的周期性 而基因周期是指声带振动频率的倒数 基音周期是语音信号最重要的参数之一 它描述了语音激励源的一个重要特征 因为汉语是一种有调语言 基音的变化模式称为声调 它携带着非常重要的具有辨意作用的信息 有区别意义的功能 所以基音的提取和估计对汉语更是一个十分重要的问题 3 8基因周期估计 基音检测算法 自相关函数 ACF 法 峰值提取算法 PPA 平均幅度差函数 AMDF 法 并行处理技术 倒谱法 SIFT 谱图法 小波法等等 自相关法 语音信号s m 经窗长为N的窗口截取为一段加窗语音信号

2、后 定义的自相关函数 ACF 亦即语音信号s m 的短时自相关函数 为 不为零的范围为是k N 1 N 1 且为偶函数 由3 3小节的分析可知 浊音信号的自相关函数在基音周期的整数倍位置上出现峰值 而清音的自相关函数没有明显的峰值出现 因此检测是否有峰值就可判断是清音或浊音 检测峰值的位置就可提取基音周期值 自相关法 在利用自相关函数估计基音周期时 第一要考虑的是窗的问题 首先 计算所用的语音帧中应使用矩形窗 其次 窗长的选择要合适 一般认为窗长至少要大于两个基音周期 第二要考虑的问题是与声道特性影响有关 当基音的周期性和共振峰的周期性混叠在一起时 被检测出来的峰值就会偏离原来峰值的真实位置

3、为了克服这个困难 可以从两条途径来着手解决 第一条是用一个带宽为60 900Hz带通滤波器对语音信号进行滤波以减少共振峰的影响 第二条途径是对语音信号进行非线性变换后再求自相关函数 自相关法 一种有效的非线性变换是 中心削波 语音信号的低幅度部分包含大量的共振峰信息 而高幅度部分包含大量的基音信息 计算自相关函数的运算量是很大的 其原因是计算机进行乘法运算非常费时 为此对中心削波函数进行修正 采用三电平中心削波的方法 平均幅度差函数法 语音信号的短时平均幅度差函数 AMDF 定义为 与短时自相关函数一样 对周期性的浊音语音 也呈现与浊音语音周期相一致的周期特性 不过不同的是在周期的各个整数倍点

4、上具有谷值特性而不是峰值特性 因而通过的计算同样可以来确定基音周期 而对于清音语音信号 却没有这种周期特性 利用的这种特性 可以判定一段语音是浊音还是清音 并估计出浊音语音的基音周期 平均幅度差函数法 利用短时平均幅度差函数来估计基音周期 同样要求窗口取得足够长 同样可以采取LPC逆滤波和中心削波处理等方法来减少输入语音中声道特性或共振峰的影响 提高基音周期估计效果 近年来许多基于AMDF的不同检测算法被提出 如采用信号经中心削波处理后再计算AMDF函数 C AMDF 的方法 采用概率近似错误纠正的方法 对基本AMDF函数进行线性加权 W AMDF 的方法 采用变长度AMDF函数 L AMDF

5、 的方法 采用原信号经LPC预测分析获得预测残差后再计算残差信号的AMDF函数 LP AMDF 的方法等 这些算法使得检测结果得到一定改进 平均幅度差函数法 其中 W AMDF定义为 而LV AMDF定义为 平均幅度差函数法 一般的浊音语音的短时AMDF所呈现的周期谷值特性中 除起始零点 外 第一周期谷点大多就是全局最低谷点 以全局最低谷点作为基音周期计算点不会发生检测错误 但是 对于周期性和平稳性都不太好的浊音语音段 其基本AMDF常常会出现第一周期谷点并不是全局最低谷点全局最低谷点出现在其他整数倍点的情况 这种现象在C AMDF W AMDF LV AMDF LP AMDF中依然存在 在这

6、种情况下 若以全局最低谷点作为基音周期计算点就会产生严重的检测错误 解决这一问题的方法之一是采用适当的基音周期计算点的搜索算法 并行处理法 运用并行处理 PPROC 技术检测基音周期的方法的基本思想是 对经过预处理的语音信号实施一系列的基音初步检测 或分别对原始信号和经处理后的信号实施系列检测 然后根据系列检测的初步结果 综合判定基音周期 如下图是一个并行处理法的实现框图 它是一种时域方法 检测器找出语音波形的六个测度 而这六个测度应用于六个独立的基音检测器 由六个检测器驱动 服从多数 的逻辑电路而进行最终的基音判决 用到的波形属性是正负峰值的幅度和位置 后峰至前锋的测度以及峰值至谷值的测度

7、并行处理法 并行处理法基音检测 倒谱法 倒谱法 CEP 是传统的基音周期检测算法之一 它利用语音信号的倒频谱特征 检测出表征声门激励周期的基音信息 正如在3 5节介绍的 语音s n 是由声门脉冲激励e n 经声道响应v n 滤波而得 即s n e n v n 设三者的倒谱分别为 则有可见 倒谱域中基音信息与声道信息可以认为是相对分离的 采取简单的倒滤波方法可分离并恢复出e n 和v n 根据激励e n 及其倒谱的特征可以求出基音周期 倒谱法 倒谱法基音检测的困难 1 声道响应的影响 对于一帧典型的浊音语音的倒谱 其倒谱域中基音信息与声道信息并不是完全分离的 在周期激励信号能量较低的情况下 声道

8、响应 特别是其共振峰 对基音倒谱峰的影响就不可忽略 2 噪声干扰 反映基音信息的倒谱峰 在过渡音和含噪语音中将会变得不清晰甚至完全消失 倒谱法 对于声道响应的影响 可以通过对输入语音进行LPC分析获得预测系数 并由此构成逆滤波器再将原始语音通过逆滤波器进行逆滤波 则可得到预测余量信号 理论上讲 预测余量信号中已不包含声道响应信息 但却包含完整的激励信息 对于噪声干扰 可以通过对原始语音或预测余量信号进行低通滤波处理来抑制 更为简便的方法是 直接将由原始信号作FT变换再取对数后得到的频域信号的高频分量置零 倒谱法 一种改进的倒谱基音检测算法 简化逆滤波法 简化的逆滤波跟踪 SIFT 算法是相关处

9、理法进行基音提取的一种现代化的版本 该方法的基本思想是 先对语音信号进行LPC分析和逆滤波 获得语音信号的预测残差 然后将残差信号通过自相关滤波器滤波 再作峰值检测 进而获得基音周期 语音信号通过线性预测逆滤波器后达到频谱的平坦化 因为逆滤波器是一个使频谱子坦化的滤波器 所以它提供了一个简化的 亦即廉价的 频谱平滑器 预测误差是自相关器的输入 通过与门限的比较可以确定浊音 通过辅助信息可以减少误差 小波变换法 一个信号的小波变换具有这样的性质 信号小波变换的极值点对应于信号的锐变点或不连续点 语音的产生过程实际上是气流通过声门再经声道响应后变成声音 对于浊音语 它是由气流冲击声门 使声门发生周

10、期性的开启或闭合 这种周期性的气流经声道响应就形成了浊音语音 声门的这种开启与闭合 在语音信号中引起一个锐变 对语音信号作小波变换则其极值点对应于声门的开启或闭合点 相邻极值点之距离就对应着基音周期 因而 采用音信号的小波变换可以检测基音周期 小波变换法 在基音检测中应用的小波变换一般采用二进小波变换 DyWT 图3 27是一帧语音的多级小波分解 基音检测的后处理 无论采用哪一种基音检测算法都可能产生基音检测错误 使求得的基音周期轨迹中有一个或几个基音周期估值偏离了正常轨迹 通常是偏离到正常值的2倍或1 2 如图3 28所示 并称这种偏离点为基音轨迹的 野点 常采用中值平滑算法和线性平滑算法去

11、除这些野点 1 中值平滑算法 中值平滑处理的基本原理是 设x n 为输入信号 y n 为中值滤波器的输出 采用一滑动窗 则n0处的输出值y n0 就是将窗的中心移到n0处时窗内输入样点的中值 中值平滑的 窗口 一般套住3个或5个样值 称为3点或5点中值平滑 中值平滑的优点是既可以有效地去除少量的野点 又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化 2 线性平滑处理 线性平滑是用滑动窗进行线性滤波处理 即 其中 m m L L 1 0 1 2 L 为2L 1点平滑窗 满足 线性平滑在纠正输入信号中不平滑处样点值的同时 也使附近各样点的值做了修改 3 组合平滑处理 为了改善平滑的效果可以将两个

12、中值平滑串接 图a所示是将一个5点中值平滑和一个3点中值平滑串接 另一种方法是将中值平滑和线性平滑组合 如图b所示 3 组合平滑处理 为了使平滑的基音轨迹更贴近 还可以采用二次平滑的算法 全部算法的框图如图c所示 由于中值平滑和线性平滑都会引入延时 所以在实现上述方案时应考虑到它的影响 图d是一个采用补偿延时的可实现二次平滑方案 3 9共振峰估计 声道可以看成是一根具有非均匀截面的声管 在发音时起共鸣器的作用 当准周期脉冲激励进入声道时会引起共振特性 产生一组共振频率 称为共振峰频率或简称共振峰 共振峰参数包括共振峰频率和频带宽度 它是区别不同韵母的重要参数 共振峰信息包含在语音频谱包络中 因

13、此共振峰参数提取的关键是估计自然语音频谱包络 并认为谱包络中的最大值就是共振峰 共振峰估计难点 1 虚假峰值 2 共振峰合并 3 高音调语音 3 9共振峰估计 提取共振峰特性最简便的手段是使用语谱仪 也可采用数字信号处理的方法 1 带通滤波器组法 2 倒谱法 3 LPC法 带通滤波器组法 这是共振峰提取的最早形式 通过滤波器组的设计可以使估计的共振峰频率同人耳的灵敏度相匹配 其匹配的程度比线性预测法要好 滤波器的中心频率有两种分布方法 一种是等间距地分布在分析频段上 则所有带通滤波器的带宽可设计成相同 从而保证了各通道的群延时相同 另一种是非均匀地分布 例如为了获得类似于人耳的频率分辨特性 在

14、低频端间距小 高频端间距大 带宽也随之增加 这时滤波器的阶数必须设计成与带宽成正比 使得它们输出的群延时相同 不会产生波形失真 带通滤波器组法 倒谱法 虽然可以直接对语音信号求离散傅里叶变换 DFT 然后用DFT谱来提取信号的共振峰参数 但是 直接DFT的谱要受基频谐波的影响 最大值只能出现在谐波频率上 因而共振峰测定误差较大 为了消除基频谐波的影响 可以采用同态解卷技术 经过同态滤波后得到平滑的谱 这样简单地检测峰值就可以直接提取共振峰参数 因而这种方法更为有效和精确 倒谱法 图3 31所示为倒谱法求取语音频谱包络的原理 实验表明 倒谱法因为其频谱曲线的波动比较小 所以估计共振峰参数的效果是较好的 但其运算量太大 LPC法 从线性预测导出的声道滤波器是频谱包络估计器的最新形式 线性预测提供了一个优良的声道模型 条件是语音不含噪声 尽管线性预测法的频率灵敏度和人耳不相匹配 但它仍是最廉价 最优良的行之有效的方法 用线性预测对语音信号进行解卷 可以去除激励分量的影响 此时求出声道响应分量的谱峰 就可以求出共振峰 这里有两种途径 一是用标准的求取复根的方法计算全极点模型分母多项式的根 称为求根法 一是用运算量较少的DFT法 求的离散频率响应的谷点来得到共振峰的位置

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号