《语音信号处理基础》PPT课件.ppt

资源描述

《《语音信号处理基础》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《语音信号处理基础》PPT课件.ppt（40页珍藏版）》请在金锄头文库上搜索。

1、第二章第二章语音信号处理基础语音信号处理基础.语音信号的产生语音信号的产生1语音信号的特性语音信号的特性2语音信号产生的数字模型语音信号产生的数字模型3语音感知语音感知4语音的产生语音的产生v声音声音是一种波形：振动频率在是一种波形：振动频率在20-20KHz,如乐器如乐器声、雷声、风声、雨声等；声、雷声、风声、雨声等；v语音语音是声音的一种，由人发音器官发出，具有一是声音的一种，由人发音器官发出，具有一定的语法和语义，语音的最高频率可达定的语法和语义，语音的最高频率可达15KHz,一一般可听的语音频率为般可听的语音频率为80Hz3.5KHz;v音乐音乐（音频）也是声音的一种，由人发音器官及

2、（音频）也是声音的一种，由人发音器官及乐器混合发出，具有一定的语法和语义，一般可乐器混合发出，具有一定的语法和语义，一般可听的音频频率为听的音频频率为20Hz22KHz;语音的产生语音的产生v人的说话过程分为人的说话过程分为5个阶段：个阶段：1）想说阶段：客观现实）想说阶段：客观现实大脑反映大脑反映说话动机说话动机神经中枢神经中枢想表达内容和情感；想表达内容和情感；2)说出阶段：神经中枢说出阶段：神经中枢发出指令发出指令各器官协调各器官协调发音（机能效果）发音（机能效果）反馈反馈修正；修正；3)传送阶段（物理过程）：语音（声波）传送阶段（物理过程）：语音（声波）媒介媒介（空气）（空气）听者（可

3、能会产生失真或损耗）听者（可能会产生失真或损耗）语音的产生语音的产生v人的说话过程分为人的说话过程分为5个阶段：个阶段：4）接受阶段：外耳）接受阶段：外耳中耳放大中耳放大内耳（基底膜振内耳（基底膜振动）动）神经元（产生脉冲）神经元（产生脉冲）大脑；大脑；5）理解阶段：神经中枢）理解阶段：神经中枢脉冲信息脉冲信息辨认信息辨认信息（如何辨认，尚未知）。（如何辨认，尚未知）。 5个阶段有个阶段有心理、生理、物理心理、生理、物理以及人和社会的因以及人和社会的因素。素。语音的产生语音的产生发音器官模型发音器官模型语音的产生语音的产生人类的发音器官人类的发音器官语音的产生语音的产生语音信号的产生过程语音信

4、号的产生过程语音的产生语音的产生v语音语音：由若干个音节（：由若干个音节（syllable)组成。组成。v音节音节：可以由一个或若干个音素：可以由一个或若干个音素(phoneme)组成组成;音素音素：是发音的最小单位，有两种音素，即：是发音的最小单位，有两种音素，即辅音辅音和和元音元音。如一个音节如一个音节dan（但）就包括（但）就包括d a n三个音素，也有的音节三个音素，也有的音节是由一个音素构成的，如是由一个音素构成的，如a“啊啊”。 v元音元音：声带振动发音时，气流从喉腔、咽腔进入：声带振动发音时，气流从喉腔、咽腔进入口腔从唇腔出去时，声腔完全开发，气流顺利通口腔从唇腔出去时，声腔完

5、全开发，气流顺利通过。过。v半元音半元音：声道基本畅通，但某处声道比较狭窄，：声道基本畅通，但某处声道比较狭窄，引起轻微的摩擦声。引起轻微的摩擦声。v辅音辅音：是呼出的声音，气流被阻不能畅通。：是呼出的声音，气流被阻不能畅通。语音的产生语音的产生汉语语音知识汉语语音知识v汉语音节：一个音节（汉语音节：一个音节（syllable)就是一个字的音，就是一个字的音，字是独立的发音单位，由声母和韵母构成。字是独立的发音单位，由声母和韵母构成。v词：由音节构成。词：由音节构成。v句子：由词构成。句子：由词构成。v音素：声母是一个音素，而韵母则较复杂。音素：声母是一个音素，而韵母则较复杂。v声调：音调在发

6、一个音节中的变化。声调：音调在发一个音节中的变化。v汉语特点汉语特点：音素少、音节少，：音素少、音节少，64个音素、个音素、400多多个音节个音节语音信号的特性语音信号的特性语音信号的特性语音信号的特性v声学特性声学特性v语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性v语音信号的统计特性语音信号的统计特性语音信号的特性语音信号的特性语音按其语音按其激励形式激励形式的不同可以分为三类：的不同可以分为三类：v浊音浊音：当气流通过声门时，如果声带的张力刚好：当气流通过声门时，如果声带的张力刚好使声带发生张弛使声带发生张弛振荡振荡，产生一股，产生一股准周期准周期的气流，的气流，这一气流激励声

7、道就产生浊音。这一气流激励声道就产生浊音。v清音清音：当气流通过声门时，如果声带：当气流通过声门时，如果声带不振动不振动，而，而在某处收缩，迫使气流以高速通过这一收缩部分在某处收缩，迫使气流以高速通过这一收缩部分而产生清音。而产生清音。v爆破音爆破音：如果使声道完全闭合，在闭合后建立起：如果使声道完全闭合，在闭合后建立起气压，然后释放，就得到爆破音。气压，然后释放，就得到爆破音。语音信号的特性语音信号的特性浊音的特性：浊音的特性：基音频率基音频率v浊音的声带振动频率称为基本频率又称浊音的声带振动频率称为基本频率又称基音频率基音频率，用用F0表示，发音时，各个元音段的表示，发音时，各个元音段的F

8、0都随时间而都随时间而变，变，F0的变化产生了音调，的变化产生了音调，F0随的变化轨迹称为随的变化轨迹称为声调轨迹，声调反映了语音的韵律。声调轨迹，声调反映了语音的韵律。v基音频率（简称基频）的范围为：基音频率（简称基频）的范围为：男性偏低一般为男性偏低一般为50HzF0200Hz; 女性、小孩偏高一般为女性、小孩偏高一般为200HzF0450Hz ；v基音频率的倒数称为基音周期基音频率的倒数称为基音周期(pitch period)。语音信号的特性语音信号的特性浊音的特性：浊音的特性：共振峰共振峰v共振峰（共振峰（Formant)：指谐振频率。声道可看成是：指谐振频率。声道可看成是一根具有非

9、均匀截面的声管，发音时起共鸣作用，一根具有非均匀截面的声管，发音时起共鸣作用，当激励进入声道时会引起共振特性，产生一组共当激励进入声道时会引起共振特性，产生一组共振频率。振频率。v共振峰与声道的形状和大小有关共振峰与声道的形状和大小有关v共振峰有多个，从低频到高频排列共振峰有多个，从低频到高频排列F1,F2,F3,，一般的浊音中可以辨别的共振峰有一般的浊音中可以辨别的共振峰有5个，个，其中前面其中前面3个对于区别不同语音至关重要个对于区别不同语音至关重要；语音信号的特性语音信号的特性浊音的特性：浊音的特性：共振峰共振峰频谱最大值与频谱最大值与共振蜂相对应共振蜂相对应F1F2F4F3语音信号的特

10、性语音信号的特性浊音和清音的区别浊音和清音的区别v由于发浊音时，声带振动，产生由于发浊音时，声带振动，产生准周期准周期气流，声气流，声道有多个道有多个共振峰共振峰。同时由于声门波引起了频谱的。同时由于声门波引起了频谱的高频衰落，因此浊音高频衰落，因此浊音能量集中在能量集中在3KHz以下以下。v对于清音由于声带不振动，由声道的某些部位阻对于清音由于声带不振动，由声道的某些部位阻塞气流产生塞气流产生类白噪声类白噪声，多数能量集中在，多数能量集中在较高的频较高的频率上率上。这就是这就是语音激励模型语音激励模型和和识别清音和浊音识别清音和浊音的理论基的理论基础。础。语音信号的特性语音信号的特性语音波

11、形语音波形语音：人的发声器官发出的一种声波，语音一定具有语音：人的发声器官发出的一种声波，语音一定具有音色、音色、音高、音强和音长音高、音强和音长四要素；音色，就是声音的个性、特色。四要素；音色，就是声音的个性、特色。它是一个音区别于另一个音的基本特征；音高指声音的高它是一个音区别于另一个音的基本特征；音高指声音的高低，取决于频率；音强（音量，又称响度）决定声音的强低，取决于频率；音强（音量，又称响度）决定声音的强弱，由声波的振动决定；音长指发音时间的长短。弱，由声波的振动决定；音长指发音时间的长短。语音信号的特性语音信号的特性声音波形及其频谱声音波形及其频谱频谱最大值与频谱最大值与共振蜂相对

12、应共振蜂相对应F1F2F4F3语音信号产生的数字模型语音信号产生的数字模型语音信号的数学模型是如何得到的？语音信号的数学模型是如何得到的？建立数学模型又有什么意义呢？建立数学模型又有什么意义呢？语音信号产生的数字模型语音信号产生的数字模型在李约瑟博士在李约瑟博士中国科学技术史中国科学技术史一书数学卷中作者一书数学卷中作者提出提出科学理论的建立科学理论的建立必然经过下面五个过程。必然经过下面五个过程。（1）从所要讨论的全部现象中，选择出那些看来是所有现）从所要讨论的全部现象中，选择出那些看来是所有现象所共有的象所共有的特性特性(分析分析，“简化简化”)，这时，逐一点查被认，这时，逐一点查被认为

13、是不必要的，因为可以相信，大自然是均匀的，而抽样为是不必要的，因为可以相信，大自然是均匀的，而抽样是有代表性的。是有代表性的。（2）通过对这些特性的主要内容进行推理，）通过对这些特性的主要内容进行推理，归纳归纳出一个特出一个特定的原则定的原则(同样是同样是“简化简化”)。（原则可以是一个定理也可。（原则可以是一个定理也可以是一个模型或者公式）以是一个模型或者公式）（3）从这个假设的原则出发，）从这个假设的原则出发，推导推导出各种可能的后果出各种可能的后果(思想思想中的中的综合综合)。（4）观察同样的或类似的现象，并根据经验）观察同样的或类似的现象，并根据经验判明真伪判明真伪。（5）接受或摒弃接

14、受或摒弃第第(2)步所提出的假设的原则。步所提出的假设的原则。语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型v激励模型激励模型v声道模型声道模型v辐射模型辐射模型语音信号产生的数字模型语音信号产生的数字模型激励模型一般分为浊音激励和清音激励来讨论。激励模型一般分为浊音激励和清音激励来讨论。v浊音浊音:浊音时，激励信号由一个周期脉冲发生器产浊音时，激励信号由一个周期脉冲发生器产生，产生的序列是一个频率等于基音频率的冲激生，产生的序列是一个频率等于基音频率的冲激序列。为

15、了使浊音的激励信号具有声门脉冲的实序列。为了使浊音的激励信号具有声门脉冲的实际波形，还需要使冲激序列通过一个声门脉冲模际波形，还需要使冲激序列通过一个声门脉冲模型滤波器型滤波器G(z) 。对声门波形的频谱分析表明，其。对声门波形的频谱分析表明，其幅度谱按幅度谱按12dB/倍频程的速度衰减。倍频程的速度衰减。语音信号产生的数字模型语音信号产生的数字模型得全极点模型形式：得全极点模型形式：整个激励模型可表示为整个激励模型可表示为 U(z)=G(z)E(z)G(z)声门模型，声门模型，E(z)单位脉冲串及幅值因子的单位脉冲串及幅值因子的Z变换。变换。v清音清音：因声道被阻塞，故可模拟成随机噪声。：因

16、声道被阻塞，故可模拟成随机噪声。语音信号产生的数字模型语音信号产生的数字模型声道模型声道模型声音在声道的传播涉及到许多物理定律声音在声道的传播涉及到许多物理定律(能量守恒、流体能量守恒、流体力学力学)，需简化。有不同的模型。，需简化。有不同的模型。关于声道的数学建模有两种观点：关于声道的数学建模有两种观点： 1）将其视为多个不同的管子串联，由此导出声）将其视为多个不同的管子串联，由此导出声管模型；管模型； 2）视为谐振腔，由此导出共振蜂模型。）视为谐振腔，由此导出共振蜂模型。语音信号产生的数字模型语音信号产生的数字模型声道模型声道模型（1）声管模型）声管模型“短时短时”间声道是一个形状稳定的

17、级联管道间声道是一个形状稳定的级联管道语音信号产生的数字模型语音信号产生的数字模型（2）共振峰模型）共振峰模型根据声道近似为谐振腔的特性，有另外模型根据声道近似为谐振腔的特性，有另外模型模拟其共振峰。在大多数情况下声道是一个全模拟其共振峰。在大多数情况下声道是一个全极点模型，共振蜂模型，其传输函数极点模型，共振蜂模型，其传输函数 p为极点个数即模型阶数，为极点个数即模型阶数，ai为模型系数。若为模型系数。若p值取得越大，模型的传输函数与声道实际传输函值取得越大，模型的传输函数与声道实际传输函数的吻合程度就越高。在大多数实际应用中，数的吻合程度就越高。在大多数实际应用中，p值取值取812.语音

18、信号产生的数字模型语音信号产生的数字模型辐射模型：用辐射模型：用R(z)表示表示v与嘴型有关，一般可表示为与嘴型有关，一般可表示为语音信号产生的数字模型语音信号产生的数字模型完整模型：可用三个模型的级联表示完整模型：可用三个模型的级联表示 V(z)=A E(z) H(z) v在在浊音情况下，浊音情况下， E(z) 是是一个周期冲激序列，且一个周期冲激序列，且A=Av，H(z)= G(z) V(z) R(z)v在在清音情况下，清音情况下， E(z) 是是一个随机噪声，且一个随机噪声，且A=Au，H(z)= V(z) R(z)语音信号产生的数字模型语音信号产生的数字模型v在在这个模型中，除了这个模

19、型中，除了G（z）和）和R（z）保持不变以外，基）保持不变以外，基音频率、音频率、Av 、 Au 、清、清/浊开关的位置以及声道模型中的浊开关的位置以及声道模型中的参数都是参数都是随时间变化而变化随时间变化而变化的。由于发声器官的惯性使的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数而言，在这些参数的变化速度受到限制。对于声道参数而言，在1030ms的时间间隔内可以认为它们的时间间隔内可以认为它们保持不变保持不变，因此语，因此语音的音的短时分析短时分析帧长一般取为帧长一般取为1030ms。v 需注意的是：把激励简单分为周期脉冲激励和噪声激励需注意的是：把激励简单分为周期脉冲激励

20、和噪声激励是与实际情况不完全符合。如果将模型的激励源改为是与实际情况不完全符合。如果将模型的激励源改为上上述两种激励按任何比例相叠加述两种激励按任何比例相叠加，这更加接近于实际情况。，这更加接近于实际情况。v这个模型的传输函数这个模型的传输函数不包含有限传输零点不包含有限传输零点，而像鼻音、，而像鼻音、擦音这样一些音的声道传输函数中包含有限零点的。解擦音这样一些音的声道传输函数中包含有限零点的。解决方法就是决方法就是适当提高阶数适当提高阶数p，使得全极点模型更好得逼近，使得全极点模型更好得逼近具有零点的传输函数。具有零点的传输函数。语音感知语音感知语音感知语音感知-声音三要素声音三要素v任何声

21、音可用声强（或声压）的三个物理量表示：任何声音可用声强（或声压）的三个物理量表示：即即幅度、频率、相位幅度、频率、相位。v对应人的感知，可用另外三要素描述：对应人的感知，可用另外三要素描述：即响度、即响度、音调和音色音调和音色。音色音色:亦称音质，反映声音属性。每个人声音具有亦称音质，反映声音属性。每个人声音具有特殊的音色，人根据音色在主观感觉上区别具有相特殊的音色，人根据音色在主观感觉上区别具有相同响度和音调的两个声音。同响度和音调的两个声音。响度响度:测量声音强弱的物理量为声强，单位为测量声音强弱的物理量为声强，单位为W/m2（瓦（瓦/米米2）；主观感受声音强弱的单位是宋：）；主观感受声音

22、强弱的单位是宋：sone。语音感知语音感知响度响度v当声音的强度小到人耳刚刚能够听见时，称为当声音的强度小到人耳刚刚能够听见时，称为听阈听阈。听阈。听阈是随频率变化而变化的。是随频率变化而变化的。v如果加大声音的强度，使它大到人耳感到疼痛，这个阈值如果加大声音的强度，使它大到人耳感到疼痛，这个阈值称为称为痛阈痛阈。听阈和痛阈之间是人耳的范围，为。听阈和痛阈之间是人耳的范围，为0120dB声声强级（强级（1012倍以上）。倍以上）。v人耳对人耳对2k4kHz声音的声音的音强的感觉最灵敏。音强的感觉最灵敏。语音感知语音感知v音调音调：亦称音高，与频率有关，单位为美尔：亦称音高，与频率有关，单位为

23、美尔（Mel）。）。v频率低的声音听起来感觉它的音调低，频率高的频率低的声音听起来感觉它的音调低，频率高的音调高。但是音调与频率不成正比，它还与声音音调高。但是音调与频率不成正比，它还与声音的强度及波形有关。的强度及波形有关。v音调与频率的关系近似为：音调与频率的关系近似为：语音感知语音感知掩蔽效应掩蔽效应v掩蔽效应是一种常见的心理声学现象。当两个响度不同的掩蔽效应是一种常见的心理声学现象。当两个响度不同的声音作用与人耳时，则响度较高的频率成分的存在会影响声音作用与人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这到对响度较低的频率成分的感受，使其变得不

24、易察觉，这种现象称为掩蔽效应。种现象称为掩蔽效应。1）同时掩蔽和异时掩蔽）同时掩蔽和异时掩蔽同时掩蔽：发生在掩蔽者和被掩蔽者同时存在时，亦同时掩蔽：发生在掩蔽者和被掩蔽者同时存在时，亦称频率掩蔽，声音能否听到取决于频率和强度。称频率掩蔽，声音能否听到取决于频率和强度。语音感知语音感知异时掩蔽：异时掩蔽：发生在掩蔽者和被掩蔽者不同时存在时，发生在掩蔽者和被掩蔽者不同时存在时，亦称时域掩蔽。有两类：亦称时域掩蔽。有两类：前掩蔽（前掩蔽（pre-masking）：发生在掩蔽者开始之前的）：发生在掩蔽者开始之前的一段时间，一般可持续一段时间，一般可持续20ms。后掩蔽（后掩蔽（post-masking

25、）：发生在掩蔽者结束之后的）：发生在掩蔽者结束之后的一段时间，一般可持续一段时间，一般可持续100ms。v掩蔽阈值掩蔽阈值取决于掩蔽者的音调、频率、声压级和取决于掩蔽者的音调、频率、声压级和持续时间。持续时间。语音感知语音感知各种不同的掩蔽效果掩蔽者有三种类型：各种不同的掩蔽效果掩蔽者有三种类型：纯纯音调、宽带噪声和窄带噪声音调、宽带噪声和窄带噪声，掩蔽者和被掩蔽者，掩蔽者和被掩蔽者组合后产生不同的掩蔽效果。组合后产生不同的掩蔽效果。纯音调信号间的掩蔽纯音调信号间的掩蔽宽带噪声对纯音调的掩蔽：掩蔽者为宽带噪声，被宽带噪声对纯音调的掩蔽：掩蔽者为宽带噪声，被掩蔽者为纯音调信号。掩蔽者为纯音调信

26、号。窄带噪声对纯音调的掩蔽：掩蔽者为窄带噪声，被窄带噪声对纯音调的掩蔽：掩蔽者为窄带噪声，被掩蔽者为纯音调信号。是一种比较复杂的掩蔽效应。掩蔽者为纯音调信号。是一种比较复杂的掩蔽效应。语音感知语音感知v临界带宽临界带宽：为了描述窄带噪声对纯音调信号的掩：为了描述窄带噪声对纯音调信号的掩蔽效应，引入临界带宽概念。一个纯音可被以它蔽效应，引入临界带宽概念。一个纯音可被以它为中心频率，且具有一定宽带的连续噪声所掩蔽，为中心频率，且具有一定宽带的连续噪声所掩蔽，若在这一频带内若在这一频带内噪声功率等于纯音的功率噪声功率等于纯音的功率，则该，则该纯音处于刚好能被听到的临界状态，即称带宽为纯音处于刚好能被

27、听到的临界状态，即称带宽为临界带宽。临界带宽。v临界频带的位置不固定，以任何频率为中心都有临界频带的位置不固定，以任何频率为中心都有一个临界频带。连续的临界带序号记为临界带频一个临界频带。连续的临界带序号记为临界带频域，或称为域，或称为Bark域。常将域。常将20Hz16KHz间的频率间的频率用用24个频率群来划分，或者说共有个频率群来划分，或者说共有24个个Bark域。域。语音感知语音感知临界带宽表临界带宽表语音感知语音感知v上述的掩蔽效应可从听觉生理上找到依据，人耳上述的掩蔽效应可从听觉生理上找到依据，人耳的的基底膜基底膜具有与频谱分析仪相似的作用，频率群具有与频谱分析仪相似的作用，频率群的划分相应地将基底膜分成许多小部分，每一小的划分相应地将基底膜分成许多小部分，每一小部分对应一个频率群。部分对应一个频率群。v掩蔽效应就在掩蔽效应就在频率群内频率群内发生。发生。

展开阅读全文

《语音信号处理基础》PPT课件.ppt

最新文档