数字语音处理(1-2章)－金锄头文库

资源描述

《数字语音处理(1-2章)》由会员分享，可在线阅读，更多相关《数字语音处理(1-2章)（77页珍藏版）》请在金锄头文库上搜索。

1、语音信号处理,天行健君子以自强不息,教材,1. 语音信号处理（修订版）胡航哈尔滨工业大学出版社,参考资料,1.语音信号数字处理Lawrence Rabiner,19832.语音识别基本原理 Lawrence Rabiner,1999,第一章绪论,数字语音处理研究的内容语音处理的发展历史返回下一章,语音信息的重要性,人类从大自然获取信息的分布图,数字语音处理研究的内容,语音信号处理的实质语音信号的数字表示语音信号数字处理的方法和技术数字语音处理的应用返回,1.语音信号处理的实质,1.实质：是研究用数字信号处理技术对语音信号进行处理的一门学科2目的：通过处理得到一些反映语音信号重要特征的语音

2、参数以便高效地传输或储存语音信号所包含的信息。通过对语音信号进行某种运算以达到某种要求。,1.语音信号处理的实质,3.学科基础：以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与心理学、生理学、计算机科学、通信与信息科学、模式识别和人工智能等学科均有密切的关系。返回,1.语音信号处理的基本内容,说的是什么内容？,是谁在说话？,计算机去说话？,怎么把话说好？,语音识别,说话人识别/确认,文语转换,说话水平评估,说的是什么语言？,语种识别,2. 语音信号的数字表示,语音表示方法的选择要保存语音信号中的消息内容；表示形式要便于传输和存储、变换和处理，不至于严重损害消息的内容，有用信息

3、更易于被提取；2. 语音信号数字表示的优点数字技术能完成许多很复杂的信号处理工作；语音可以看成是音素的组合，具有离散的性质，特别适合于数字处理；,2. 语音信号的表示,数字系统具有高可靠性、价廉、紧凑、快速等特点，很容易完成实时处理任务；数字语音适于在强干扰信道中传输，易于和数据一起在通信网中传输，也易于进行加密传输。语音信号的数字表示方法波形表示采样和量化，保持波形参数表示激励源和模型参数（第二章）,语音信号波形表示示例,一些常用的语音波形分析与处理的软件 CooleditGoldenwaveSFSNero waveeditPraat,Cooledit Pro 界面,返回,3. 语音信号的数

4、字处理方法,语音信号的特点短时平稳性短时时域处理方法短时能量、短时平均过零率以及短时自相关函数计算短时频域分析短时傅立叶分析线性预测技术本质上属于时域分析方法，但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型,语音信号的特点短时平稳性,语音信号数字处理基本过程,以降低语音发音速率的处理过程为例,语音信号数字处理基本过程,连续语音波形- A/D 转换- 离散时间信号- 用数字系统进行处理- 修改后的离散时间信号- D/A 变换- 模拟波形返回,4. 数字语音处理的应用,语音压缩和编码语音通信数字化；语音合成自动报站、自动报时、自动警告、电话自动查询和语音提示等；语音识别声控应用、

5、自动口语翻译；说话人识别安全加密、银行信息电话查询服务以及破案和法庭取证；语音增强通常作为语音处理的前端。,各种语音产品,返回,语音处理的发展历史,1876年电话的发明，贝尔（Bell）；1939年声码器的研制成功声源声道；1947年贝尔实验室发明语谱图仪语音识别研究的开始；50年代第一台口授打字机和英语单词语音识别器；60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器；,语音处理的发展历史,70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别；80、90年代语音处理技术产品化IBM Tangora-5和Tangora-20英语听

6、写机，Dragon Dictate 词汇翻译系统(70000)，viavoice汉语听写机。CMU语音组研制成功SPHINX系统（识别率达95.8%);国内，清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。返回,第二章基础知识,人类的语言器官语音产生过程语音信号产生的数字模型语音信号的特性人类的听觉功能返回下一章,1. 人类的语言器官,人类能以语言沟通，进而累积知识，形成文化，其中一个主要的原因，就是人类具有较其它生物优越的发音器官。人类的发音器官能够产生多样性的声音，构成丰富的词汇，无疑是最关键的因素。,1. 人类的语言器官,人体发音器官肺、气管、喉（包括声带）和

7、声道，肺是语音产生的能源所在；声带为产生语音提供主要的激励源；声道是指声门至嘴唇的所有器官：咽、鼻腔、口腔等，它们具有非均匀截面，且随时间变化，起共鸣器（或谐振器）的作用。,1. 人类的语言器官,注：喉部以上的部分统称为声道；气管和肺在声门以下,1. 人类的语言器官,图2-2 最重要的发音器官之一：声带,(a)闭合状态 (b)张开状态,甲状软骨杓状软骨环状软骨声门声带（声襞）,返回,2.语音产生过程,发音机理,肺,声带,声道,恒定气流,声音,嘴唇,声压波,速度波,能源,激励源,谐振腔,辐射源,变化气流,2.语音产生过程,语音的形成过程空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射

8、出声波，形成语音。浊音：声带绷紧，气流通过时会使得开口变成一开一闭的周期性动作，这时候就造成周期性的激发气流，如a，o；清音：声带完全舒展，声道某部位收缩形成一个狭窄的通道，产生空气湍流，如h，d；爆破音：声带完全舒展，声道的某部位完全闭合，一旦闭合点突然开启，空气压力快速释放，如b，p。,2. 语音产生过程,语音的两个重要声学特性：浊音的基音频率(F0)：由声带的尺寸、特性和声带所受张力决定，其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在60Hz至450Hz左右。,2. 语音产生过程,语音的两个重要声学特性：共振峰(Fn , n=1,2,.)：声道是一个谐振腔，它放大声音气流

9、的某些频率分量而衰减其他频率分量，被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰，声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。实际应用中，头三个共振峰最重要。,2. 语音产生过程,理想状态下共振峰的计算：假设声道截面是均匀的（此时可把声道看作一个粗细均匀的圆筒），从喉到唇的距离L=17 cm，音速c=340 m/s，则共振峰将发生在：,返回,2.3 语音的时间波形和频谱特性,语音可以直接用它的时间波形来表示，根据时间波形可以看出语音信号的一些主要特性。就其本性而言，语

10、音波形是时间的连续函数，其统计特性是随时间而变化的，但比较缓慢,1030ms,2.3语音的时间波形和频谱特性,语音的频谱特性由声道的形状和尺寸决定，随时间变化短时谱（清浊音的不同、对数和线性振幅谱）；语谱图（浊音和清音的不同、宽带和窄带语谱图）,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,元音信号的频谱,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,语音信号时域波形示意图:静息波脉冲波（清塞音）准周期波（浊音）噪声波（摩擦音）,2.3语音的时间波形和频谱特性

11、,声音的语谱图,2.3语音的时间波形和频谱特性,窄频带的语谱图(narrowband spectrograms)语谱图的产生是用傅里叶转换(Fourier transform)，当我们用较长的分析窗口(analysis windows)，约20ms，对应频宽约为45 Hz，得到的频率分辨率较高，频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条，其间距就是基频(F0) 。,2.3语音的时间波形和频谱特性,宽频带的语谱图(wideband spectrograms) 若是在转换演算时用较少的取样点，分析窗口大约3ms ，对应频宽约300 Hz，则频谱上看不到谐振成分，在语谱图上看不到等

12、距的黑白相间。频率分辨率较低，反而是时轴上的分辨率较高，看到明显的垂直线条。,2.3语音的时间波形和频谱特性,共振峰(formant)在频域上，能量集中处就是共振峰(formant)之所在，在语谱图上就是颜色较深的位置。在发元音时，音强较大，声带振动而呈现出基频及其谐振频率，也可以明显看到共振峰，能量集中在低频。如果是发辅音，而且声带不振动，就看不到谐振频率。通常辅音的音强小，颜色看来就比较淡，而且能量较集中在高频。若是在没有语音的空档，则语谱图上呈现的，就是有一段空白。,2.3语音的时间波形和频谱特性,元音与辅音的声学特性(一) 元音发元音的声音时，声带是振动的，音强也较大，波形上可以看到大

13、的振幅，而且呈现周期性。其周期就是音高周期，对应的频率就是基频，通常以F0表示。正常说话时，元音的音长大约是50到400ms之间。元音在频谱上会呈现能量集中的现象，集中处的频带称为共振峰。在5 kHz的语音频带范围内，会有5个共振峰，分别以F1F2F3F4与F5代表，其中F1F2与F3比较明显。,2.3语音的时间波形和频谱特性,图4-3 三个元音的语谱图（分别对应汉语拼音的元音i , a , u ）,2.3语音的时间波形和频谱特性,图4-4 双元音在语谱图上共振峰转移(过渡)的现象分别对应汉语拼音的双元音 ai , ei , ao , ou,2.3语音的时间波形和频谱特性,(二) 辅音辅音

14、是对元音的前或后作修饰。带声的辅音会有类似元音的共振峰，因为声带振动，所以和元音一样有谐振的成分，但相对于元音，能量小得多。不带声的摩擦音（如f, s, sh, x, h）类似噪音，能量倾向在高频。发鼻音时，鼻腔的共振效果使得低频成分受到压抑，虽然是声带振动而有共振峰，但低频的共振峰能量较弱。下图分别对应汉语拼音辅音：b, p, m, f, j, q, x, zh, ch, sh,2.3语音的时间波形和频谱特性,图4-5 塞音（或爆破音）出现在元音前的例子下图分别对应 ba , da , ga , pa , ta , ka,在一个音节的开始若有塞音，当气流放出之后，随着就发元音，声带开始振动，

15、在语谱图上可以观察到一小段时间之后，才有明显的共振峰出现，这一小段时间就叫做嗓音的起始时间(voice onset time)，简称VOT。,返回,2.3语音信号的统计特性,语音信号可以看成是一个遍历性随机过程的样本函数；语音信号的统计特性可以用它的振幅概率密度函数和一些平均量（均值和自相关函数）来描述概率密度的估算、逼近方法及意义；自相关函数的估计及影响因素（语音段和滤波情况）；语音信号的统计特性也可以用功率谱来描述长期平均功率谱可以用周期图来估计；返回,2.3语音信号的统计特性,长时平均幅度的概率密度分布,2.4. 语音信号产生的数字模型,在研究了发声器官和语音的产生过程以后，便可以建立一个离散时域的语音信号产生的数字模型，它将是我们将数字信号处理技术应用于语音信号的基础。下图是一个完整的语音信号产生的数字模型：,2.4. 语音信号产生的数字模型,由此模型框图，我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出，此模型可分为三个部分：(1)激励模型(2)声道模型(3)辐射模型(1)激励模型根据发浊音和发清音的机理又分为： (a)浊音激励 (b)清音激励,

展开阅读全文

数字语音处理(1-2章)

最新文档