论文-语音信号的基音频率提取算法研究

上传人:ji****72 文档编号:27201401 上传时间:2018-01-08 格式:DOC 页数:45 大小:1.20MB
返回 下载 相关 举报
论文-语音信号的基音频率提取算法研究_第1页
第1页 / 共45页
论文-语音信号的基音频率提取算法研究_第2页
第2页 / 共45页
论文-语音信号的基音频率提取算法研究_第3页
第3页 / 共45页
论文-语音信号的基音频率提取算法研究_第4页
第4页 / 共45页
论文-语音信号的基音频率提取算法研究_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《论文-语音信号的基音频率提取算法研究》由会员分享,可在线阅读,更多相关《论文-语音信号的基音频率提取算法研究(45页珍藏版)》请在金锄头文库上搜索。

1、前言第 1 页 (共 47 页)语音信号的基音频率提取算法研究1 前言基音是指发浊音时声带振动所引起的周期性,而声带振动频率的倒数就是基音周期。基音周期具有时变性和准周期性,它的大小与个人声带的长短、厚薄、韧性和发音习惯有关,还与发音者的性别、年龄、发音时的力度及情感有关,是语音信号处理中的重要参数之一,它描述了语音激励源的一个重要特征。基音周期的估计称为基音检测(Pitch Detection),基音检测的最终目标是找出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则找出尽量相吻合的轨迹曲线。然而由于人的声道的易变性及其声道特征的因人而异,而基音周期的范围又很宽,且同一个人在不同情态

2、下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,故实际中的基音周期的精确检测是一件比较困难的事情。然而,尽管语音信号的基音检测有许多困难但由于它在语音信号处理中的重要作用,促使广大学者争相涉足该领域,提出了各种各样的基音检测算法。2 选题背景2.1 基音检测技术的研究进展早在 70 年代,L.R.R 等人就进行了自相关函数法检测语音信号的基音周期的研究工作,它是一种时域上的基音检测算法,算法的精确性高,计算量不大,是目前各种应用中最为常用的基音检测算法。1967 年,A.M.Noll 提出用倒谱法(Cepstrum)检测语音信号的基音周期。这是一个频域上的检测算法,这种方法检测基

3、音周期精确度很高,抗噪性能好,主要的缺陷是计算量太大,要用到傅立叶变换和对数运算,不利于实现。1972 年,J.D 等提出简单逆滤波追踪法(SIFT)检测语音信号的基音周期,这是一种时域和频域相结合的算法,是一种精确度和计算量较为折中的算法,它利用逆滤波去除声道共振峰的影响,使基音信息更为突出。1974 年,M.J.Ross 等人提出平均幅度差函数法检测语音信号的基音周期,这是一种时域上的算法,也是最简单的基音检测算法,它只需在时域上进行简单的加减语音信号的基音频率提取算法研究第 2 页 (共 47 页)和少量的除法运算,运算量很小,但是很容易产生半基音和倍基音,目前还有很多人在不断的提出改进

4、的 AMDF 算法。到 1976 年,L.R.R 等人系统总结了之前的各种语音信号的基音检测算法,并进行了全面的比较。这些算法都是假定语音信号在一帧内是平稳的且一帧内包含两个以上的基音周期,所以它们不能很好反映语音信号的时变特性,而且只能求出一帧内的平均周期。1992 年,S.K 等人最早提出了基于小波变换的基音检测算法,它是一种利用变换的基音检测算法,通过小波变换后的幅度和相邻两个尺度下的小波变换的局部最大值是否一致来进行清浊音判断,浊音的小波变换的局部最大值点即为 GO,而相邻两个 GO 的距离即为语音信号的基音周期。受小波变换的基音检测算法的启发,不断地有人提出了各种改进的小波变换基音检

5、测算法,如:小波变换偏移补偿的基音检测算法,利用小波变换和其它方法结合的基音检测算等。2.2 基音检测技术的研究现状从国内外研究现状来看,基音检测技术的研究热点和难点已经集中于处理低信噪比语音。着眼于基音的检测方法,主要有以下三个方面的研究:(1)稳定并提取准周期性信号的周期性方法;(2)因周期混乱,采取基音提取误差补偿的方法;(3)消除声道噪声影响的方法。人们从语音信号的时域特性、频域和时一频混合特性三个方面出发,已经开发了许多基音检测方法,这些方法中的一些方案已经得到了应用。基音检测方法大致上可以分为三类:(1)时域估计法,直接由波形来估计基音周期,常见的有:自相关(ACF)法 31、平均

6、幅度差法 32等;(2)频域估计法,利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,常见的有:谐波积谱(HPS) 法,简化逆滤波(SIFT)法 33,倒谱(cepstrum)法 34等;(3)混合法,基于以上方法的衍生组合算法,如:自相关法和平均幅度差法相结合。这些方法在实验室特定条件下都取得了不错的效果。表 1 列出了几种典型的基音检测方法及特征 30选题背景第 3 页 (共 47 页)表 1 几种典型的基音检测方法及特征分类 基音提取法 特征并行处理法由多种简单的波形峰值检测器决定提取的多数基因周期。数据减少法根据各种理论操作,从波形去掉修正基音脉冲以外的数据。

7、波形估计法过零数法 关于波形的过零数,着眼于重复图形自相关法语音波形的自相关函数,根据中心削波,平坦处理频谱,采用峰值削波可以简化运算。SIFT 法语音信号波形降低取样后,进行 LPC 分析,用逆滤波器平坦处理频谱,通过预测误差的自相关函数,恢复时间精度。相关处理法AMDF 法采用平均幅度差函数检测周期性,根据预测误差信号的 AMDF 也可以进行提取。倒谱法根据对数功率谱的傅里叶逆变换,分离频谱包络和细微结构。变换法循环直方图法在频谱上,求出基频高次谐波成分的直方图,根据高次谐波的公约数决定基音。目前,基音检测主要存在以下困难 35:(1)语音信号变化十分复杂,声门激励的波形并不是一个完全的周

8、期序列。在语音的头尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判定它属于周期性还是非周期性,从而对估计基音周期带来一定的影响。语音信号的基音频率提取算法研究第 4 页 (共 47 页)(2)从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。如声道共振峰可能强烈改变声门波形的结构,从而严重影响激励信号的谐波结构,会给基音检测造成困难。(3)语音信号是准周期的,且共振峰结构和噪声有时会影响波峰和过零率,很难准确定位基音周期的开始和结束。(4)区分清音语音和低电平语音是导致基音检测困难的另一个重基音检测算法研究及其在方言辨识中的应用要因素。在许多情况下,清音语音与

9、低电平浊音段之间的过度段是非常细微的,确认它是极其困难的。(5)在实际应用中,背景噪声强烈影响基音检测的性能。(6)基音频域变化范围大,从老年男性的 80Hz 到儿童女性的 500Hz,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一个完善的方法可以对各类人群包括男人、女人、老人、小孩及不同语种和各种环境条件情况下都能获得满意的检测结果。3方案论证3.1语音信号处理基础3.1.1 语音信号产生3.1.1.1 发音器官人类的语音是由人体发音器官在大脑控制下的生理运动产生的。人体发音器官由三部分组成:肺和气管,喉,声道 3,21。肺是胸腔内的一团有

10、弹性的海绵状物质,它可以储存空气。其主要生理功能是使血液和空气之间进行气体交换,即将空气中的氧气吸入血液,而将血液中的二氧化碳排入空气,这就是人体的呼吸功能。在说话时,为了保持语音有一定程度的连续性,人的呼吸就不得不有短暂的停顿,其特点是吸气短,呼气长,且呼吸受到句子结构的控制,并没有一个固定的规则。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。 喉是一种由软骨和肌肉组成的复杂系统,其中有重要的发音器官-声带(vocalcords) 。它主要包括环状软骨、甲状软骨、钩状软骨和声带。声带受到喉部方案论证第 5 页 (共 47 页)软骨和肌肉的控制。当声带分开时,处于正常呼吸

11、状态。两片声带之间的空间叫做声门(glottis)。当声带闭合时,肺道便被封闭起来构成一个密闭的小室。 声带每次开启和闭合一次的时间就是基音周期(pitch period),它的倒数就是基音频率(pitch frequency) 。基音频率取决于声带的大小、厚度、松紧程度以及声门上下之间的气压差的效应等。一般基音频率越搞,声带被拉得越长、越紧、越薄,声门的形状也变得越细长,而且这时声带在闭合时也未必是完全闭合。基音频率最低可达到 80Hz 左右,最高可达 500Hz 左右。其范围随发音人的性别、年龄及具体情况而定。老年男性偏低,小孩和青年女性偏高。声道是它是一根从声门延伸至口唇的非均匀截面的声

12、管,其外形变化是时间的函数。声道是气流自声门、声带之后最重要的、对发音起决定性作用的器官,它发出不同音时其形状变化是非常复杂的。成年男子声道的平均长度约 17cm,而声道的截面积取决于其发音器官的位置。发音过程中声道的截面积由舌头、唇、上腭、小舌等的位置决定。 3.1.1.2 语音产生过程图 1 语音产生机理示意图图 1 为语音产生机理示意图。在发音过程中,肺部与相连的肌肉相当于声道系语音信号的基音频率提取算法研究第 6 页 (共 47 页)统的激励源。当声带处于收紧状态时。流经的气流使声带振动,这时产生的声音称为浊音(voiced sound),不伴有声带振动的音成为清音(unvoiced

13、sound) ,当声带处于放松状态时,有两种方式能发出声音:一种方式是通过舌头,在声道的某一部分形成狭窄部位,也称为为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型的声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音另一种方式是声带处于松懈状态,利用舌头和嘴唇关闭声道,暂时阻止气流。当气流压力非常高时,突然放开舌与唇,气流被突然释放产生短暂脉冲音。对应于声道闭紧点的不同位置和声道的形状,形成不同的爆破音。为了发出各种各样的声音,需要调整声道的形状,称之为调音(articulation) 。声道各部位的动作称为调音运动(articulation movement) 。调音用

14、的声道的各部分器官叫调音器官(articulation organ),包括舌、腭、唇和嘴等声道中可以自由活动的部分。在调音器官中,因调音而产生的声道固定部位的狭窄位置称为调音点(place of articulation) 。声带的状态,包括它的位置、形状、各个不同的调音器官的大小等随时间的变化产生不同音色的语音。这是因为对应不同的声道形状就有不同的传递特性。3.1.2 语音信号的数字化3.1.2.1 语音信号的采样与量化语音信号是时间和幅度都连续变化的一维模拟信号,要想在计算机了对它进行处 理,就要先进行采样和量化,将它变成时间和幅度都离散的数字信号。如下图:预 处 理 采 样 量 化 计

15、算 机图 2 语音信号数字化框图所谓采样就是把模拟信号在时间域上进行等间隔取样,其中两样本之间的间隔称为采样周期,它的倒数称为采样频率。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以根据采样后的信号重构原始信号。实际的信号常有一些底能量的频谱部分超过采样频率的一半,如浊音的频谱超过 4KHz 的分量比其峰值要低 40dB 以上;对于清音,即使超过 8KHz,频率部方案论证第 7 页 (共 47 页)分也没有明显的下降,因此语音信号所占的频率范围可达 10KHz 左右。在实际的语音信号处理中,采样频率一般为 8KHz10KHz。采样后的信号在时间域上是离散

16、的形式,但在幅度上还保持着连续的特点,所以要进行量化,量化的目的是将信号波形的幅度值离散化。一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值表示,这个幅度值称为量化值。3.1.2.2 语音信号的短时加窗处理经过数字化的语音信号实际上是一个时变信号,为了能用传统的方法对语音信号进行分析,应假设语音信号在 10ms-30ms 短时间内是平稳的。后面所有的分析都是在语音信号短时平稳这个假设条件进行的。 为了得到短时的语音信号,要对语音信号进行加窗操作。在加窗的时候,不同的窗口选择将影响到语音信号分析的结果。在选择窗的时候一般有两个问题要考虑。 窗函数的形状 窗函数可以选用矩形窗,即:1 0nN-1W(n) = (3-1)0 其他或其他形式的窗函数,例

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号