语音信号产生的数字模型[整理]

资源描述

《语音信号产生的数字模型[整理]》由会员分享，可在线阅读，更多相关《语音信号产生的数字模型[整理]（61页珍藏版）》请在金锄头文库上搜索。

1、“,”,精品PPT实用可编辑,“,”,精品PPT实用可编辑,第二章语音信号产生的数字模型 Speech Production Model,2.1 人类的语言器官和语音产生过程 2.3 语音信号产生的数字模型 2.4 语音信号的特性 2.5 人类的听觉功能(speech perception),3,精品PPT借鉴参考,2.1 人类的语言器官和语音产生过程,人类的语音是由人体发音器官在大脑控制下的生理运动产生的。发音器官包括：肺，喉，声道等。空气由肺部排入喉部，经过声带进入声道，最后由嘴或鼻辐射出声波，形成了语音。,鼻腔,口腔,声带,声门,4,精品PPT借鉴参考,Muscle force,lun

2、g,Vocal cords,Nose output,Mouth output,Velum,Nasal cavity,Mouth cavity,The complete physiological mechanism of speech production,声道,excitation,speech,5,精品PPT借鉴参考,喉的生理结构,喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架，前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。,甲状软

3、骨,声门,声带,环形软骨,人的前方,喉,6,精品PPT借鉴参考,当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。,声带靠拢,Tp,基音周期,声带的开启和闭合称为振动。这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、u和o等。,7,精品PPT借鉴参考,Glottal Closure instant,T,8,精品PPT借鉴参考,女声汉语拼音a的时域波形,9,精品PPT借鉴参考,Tp,

4、基音周期 fundamental period,Voiced excitation,Unvoiced excitation（声带不振动，声门开启）,10,精品PPT借鉴参考,男声汉语拼音声母s的时域波形,11,精品PPT借鉴参考,气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。,讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，对应不同的谐振频率。,声道,12,精品PPT借鉴参考,发音的三种方式excitation,浊

5、音（voiced sounds）声带开启和闭合，在声门处产生一个准周期性脉冲序列。（quasi-periodic sequence）清音（unvoiced sounds）声带完全舒展开来，声道的某个部位发生收缩形成了一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近产生空气的湍流，类似于白噪声。（white noise）爆破音（plosive/stop sounds）声带完全舒展开来，声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，一旦闭合点突然开启便会让气压快速释放，实际上也是一种空气的湍流。（white noise）,13,精品PPT借鉴参考, F0

6、=1/Tp，基音频率，由声带的质量来决定。 F0的大小决定了声音的高低，称为音高。男性的F0大致分布在： 50250Hz 女性和儿童的F0大致分布在：100500Hz,基音频率(Fundamental Frequencypitch)F0,14,精品PPT借鉴参考,鼻端,嘴唇,声道的谐振频率format frequency,谐振频率发生在：Fn= （声道的横截面是均匀的，发元音e时，声道近似是均匀的。）,L=17cm，声道的长度 n=1,2,3 称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ， c=340m/s,2n-1,4L,c,15,精品P

7、PT借鉴参考,女声英文a的频谱,16,精品PPT借鉴参考,男声汉语拼音声母s的频谱,17,精品PPT借鉴参考, 一种声道形状对应一套共振峰不同人的声道大小不同，共振峰不同同一人，发不同音，共振峰也不同,总结,前三个共振峰的大致范围（Hz）,18,精品PPT借鉴参考,时域波形：幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。,女声汉语拼音a的时域波形,19,精品PPT借鉴参考,频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。,女声英文a的频谱,20,精品PPT借鉴参考,鼻腔的作用,在软腭的帮助下，可使空气经过鼻腔排除人体外，由此产生的语音称为鼻音。如n、ng为鼻音韵母，

8、m、n、l为鼻音声母。鼻腔是一个谐振腔，由于形状固定，故其共振峰频率是确定的。,21,精品PPT借鉴参考,Muscle force,lung,Vocal cords,Nose output,Mouth output,Velum,Nasal cavity,Mouth cavity,The complete physiological mechanism of speech production,声道,excitation,speech,22,精品PPT借鉴参考,uG(n),Av,冲激序列发生器,声门脉冲模型G(z),随机噪声发生器,基音周期TP,Au,清/浊音开关,浊音激励,清音激励,2

9、.3 语音信号产生的数字模型,一、激励模型,23,精品PPT借鉴参考,声门脉冲滤波器,N1,N2,24,精品PPT借鉴参考,二、声道模型( 共振峰模型),短时线性系统声道V(z),1.级联型(元音),V1,V2,V3,V4,V5,声道是一组串连的二阶谐振器（一个谐振腔对应1个共振峰频率）。,25,精品PPT借鉴参考,每个传输函数是一个全极点的IIR滤波器，这些极点确定了声管的共振峰。若N取偶数，V(z)一般有N/2对共轭极点，rkexp(j2FkT)，k=1N/2。各个wk值分别与语音的共振峰相互对应。 N的取值一般为812。,26,精品PPT借鉴参考,传输函数,N为极点个数，G是增益参数

10、，ak为常系数。,T为采样周期,27,精品PPT借鉴参考,2.并联型(大部分辅音),传输函数，零极点IIR滤波器,零极点IIR滤波器总是可以用全极点IIR 滤波器来代替。因此可以用全极点模型来表示任何语音。,28,精品PPT借鉴参考,三、辐射模型,R(z)=R0(1-z-1),唇端辐射损耗在高频端较为显著，而在低频端影响较小， R(z)应具有高通特性。对高频提升大约为每倍频程6dB。,29,精品PPT借鉴参考,四、完整的语音信号的数字模型,Av,冲激序列发生器,声门脉冲模型G(z),随机噪声发生器,基音周期TP,AN,线性系统声道V(z),辐射模型 R(z),清/浊音开关,传输函数,3

11、0,精品PPT借鉴参考,传输函数的具体表达式：,31,精品PPT借鉴参考,模型的特点,在这个模型中，TP、 Av、AN、清/浊音开关的位置以及声道滤波器的参数都是随时间而变化，在10-30ms的时间间隔内是保持不变的。这种特性称为短时性。对于激励信号而言，大部分情况下，这一结论也是正确的，但有些音变化速度特别快，爆破音，取5ms比较更为恰当。,32,精品PPT借鉴参考,2.4 语音信号的特性,一、语音的声学特性,语音是发声器官发出的一种声波，具有一定的音色、音调和音强和音长。音色: 又称为音质，是一种声音区别于另一种声音的基本特性。音调：声音的高低，取决于声波的频率音强：声音的强弱，它

12、由声波的振动幅度所决定音长：发音时间的长短,33,精品PPT借鉴参考,（1）音系简单，在汉语中一个字就是一个音节，由一般为23个音素组成，而且具有音素少、音节少。英语中一个单词由若干个音节组成，一般为23个，一个音节由若干个音素组成，一般为14个。（2）清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。（3）有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。,汉语语音的特点,34,精品PPT借鉴参考,在汉语中，由元音和辅音构成声母和韵母。,二、汉语的拼音方法,声母：一个音节开始的辅音，声母完全由辅音充当，但辅音不等于声母，因为辅音还可以作为韵尾放在音节的末尾。 b、p、m、f

13、、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r,35,精品PPT借鉴参考,韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。 a、o、e、i、u、单韵母（元音） ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei 、e 复韵母 an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、 an、n 鼻韵母 i表示3个韵母，即韵母、舌尖前韵母和舌尖后韵母。,36,精品PPT借鉴参考,韵母是由单、双元音、元音带上辅

14、音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。,区别不同韵母的重要参数,37,精品PPT借鉴参考,声母、韵母和声调是汉语语音的三要素。汉语语音的一个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（）、阳平（）、上声（）、和去声（）。,三、汉语音节的一般结构,38,精品PPT借鉴参考,声调的变化就是浊音基音周期的变化，为了将调值描写地具体一些，一般采用“五度标记法”，用一条竖线表示声音的高低，从上而下用1、2、3、4、5依次表示低、半低、中、半高、高。,5 高,4 半高,3 中,2 半低,

15、1 低,阴平,阳平,上声,去声,39,精品PPT借鉴参考,四、语音信号的统计特性,语音信号振幅分布的概率密度有两种逼近方法：,40,精品PPT借鉴参考,41,精品PPT借鉴参考,人类接收语音由人耳来完成，空气振动由耳廓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓室中的空气和听骨链也发生振动，听骨链的振动经前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波使位于基底膜上的螺旋器受到刺激，将神经冲动经听神经传到中枢而产生听觉。,2.5 人类的听觉功能,42,精品PPT借鉴参考,正常人的听觉系统是极为灵敏的，可听声的范围为20Hz-20kHz。可听声的最小声压级(dB)称为听阈。-5130dB，对低频和

16、高频是不敏感的，听阈为60dB，在1kHz附近最敏感。,43,精品PPT借鉴参考,如果信号是一个多频率的信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度，从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂信号分解成各种频率分量，这种作用称为人耳的时频分析特性。耳蜗在语音接收过程起着重要的作用。,耳蜗对声信号的时频分析特性,44,精品PPT借鉴参考,人工耳蜗是一种电子装置，能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官，把声音转换成编码的电信号传入内耳耳蜗，刺激分布在那里的听神经，再由大脑产生听觉。,人工耳蜗,45,精品PPT借鉴参考,麦克风接收声音，并通过导线将其传至言语处理器；言语处理器对声音进

展开阅读全文