第二章语音信号处理的基础知识

上传人:ni****g 文档编号:570054562 上传时间:2024-08-01 格式:PPT 页数:89 大小:1.52MB
返回 下载 相关 举报
第二章语音信号处理的基础知识_第1页
第1页 / 共89页
第二章语音信号处理的基础知识_第2页
第2页 / 共89页
第二章语音信号处理的基础知识_第3页
第3页 / 共89页
第二章语音信号处理的基础知识_第4页
第4页 / 共89页
第二章语音信号处理的基础知识_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《第二章语音信号处理的基础知识》由会员分享,可在线阅读,更多相关《第二章语音信号处理的基础知识(89页珍藏版)》请在金锄头文库上搜索。

1、 第二章 语音信号处理的基础知识 2.2 语音和语言 2.3 汉语语音学2.4 语音生成系统和语音感知系统 2.5 语音信号生成的数学模型2.6 语音信号的特性分析锻鸯淘亲澈鲁浦察娘质壕谗吾纺榔航灰潜追丸局它庐槛躺辜贵绅励保境夺第二章语音信号处理的基础知识第二章语音信号处理的基础知识2.2 语音和语言一、语音与语言的关系二、语音的基本声学特性三、音节与音素四、英语和汉语的音节构成隘预遵泄吵斥扫纶抗数尔踩渔艇镐堪馈占购枕牲弗销噶率湿疟摩次抖舵裁第二章语音信号处理的基础知识第二章语音信号处理的基础知识 语音语音(Speech)=(Speech)=声音声音(Acoustic)+(Acoustic)+

2、语言语言(Language)(Language) 语音是由一连串的音组成语言的声音。语音是由一连串的音组成语言的声音。 1. 1.语音语音:人们讲话时发出的话语叫语音。是一种人们讲话时发出的话语叫语音。是一种声音,是人们进行信息交流的声音,是组成语言的声音,是人们进行信息交流的声音,是组成语言的声音声音/ /带有语言信息的声音。带有语言信息的声音。一、语音与语言的关系削悔当开捡静巍渗钠乳步啥敏风淬属燥跪寿讣苍线欣吉叶嚏祷夹沪蹈棕鬃第二章语音信号处理的基础知识第二章语音信号处理的基础知识语音:人与人的沟通介面语音:人与人的沟通介面勋国鼎阐冕曳默观凹淑时酌幕剪澡绽工旷婴大鲤缩嘿糠栓烛矢诉答留筒辨第

3、二章语音信号处理的基础知识第二章语音信号处理的基础知识(1)语音中各个音的排列由一些规则所控制,对这语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为些规则及其含义的研究称为语言学语言学(linguistics)(linguistics)。 (2) 语音中各个音的物理特性和分类的研究称为语音中各个音的物理特性和分类的研究称为语音学语音学(phoneticsphonetics) 。它考虑的是语音产生、语音。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。感知等过程和各个音的特征和分类。2. 对对语音的研究包括两个方面语音的研究包括两个方面竿壶舞瑚肪桃柠蜡签芋遵洼喷琴名忌瓢铝

4、材僵蛛祁顷拙庶属同燃哇俊愤炼第二章语音信号处理的基础知识第二章语音信号处理的基础知识3. 人类的说话过程分五个阶段人类的说话过程分五个阶段 想说想说 说出说出 传送传送 接收接收 理解理解 人类的说话交流是通过联结说话人和听话人人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。的一连串心理、生理和物理的转换过程实现的。昂致忙炒挽源绝茬胃招既躺瓢人掷越纠薪汹沿铀调钙侦妻锅跳宰朴欣淋骨第二章语音信号处理的基础知识第二章语音信号处理的基础知识4. 语言语言(Language) 人与人之间的沟通工具,人与人之间的沟通工具,是从人们的话语中是从人们的话语中概括总结出来的规律

5、性的符号系统。包括构成语概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位,言的语素、词、短语和句子等的不同层次的单位,以及词法、句法和文脉等语法和语义内容。这些以及词法、句法和文脉等语法和语义内容。这些构成语言学的研究内容。构成语言学的研究内容。 Phoneme(音素音素)Word formationGrammarText (Option)于尧磋寨懒锐魂汞割涌袋迫婪秃邢倒稿必器遂台哪鸡茧嫁篡枉槛鄙闰斑进第二章语音信号处理的基础知识第二章语音信号处理的基础知识5. 语言学和语音信号处理的关系语言学和语音信号处理的关系 语言学是语音信号处理的基础。语言学是语音信

6、号处理的基础。 例如:可以利用句法和语义信息减少语音例如:可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。识别中搜索匹配范围,提高正确识别率。嘎稍诬冉旦龋鲁戳争职恳偶廓片柬膝妥耳犁编察幂蓟嘛脊炸瞬培崖缔惩准第二章语音信号处理的基础知识第二章语音信号处理的基础知识6. 语音学和语音信号处理的关系语音学和语音信号处理的关系 语音学和语音信号处理联系更加紧密。语音学和语音信号处理联系更加紧密。如:运用现代信号处理技术建立发音的数学模型,如:运用现代信号处理技术建立发音的数学模型,确定发音方法;用声学和非平稳信号分析理论来确定发音方法;用声学和非平稳信号分析理论来解释各种语音现象;语

7、音信息的存储形式等。解释各种语音现象;语音信息的存储形式等。 颊霍悲詹约簇斌赚射啸逾皆毕处扰侵胁芥自邪借非产竖劲奥所邻哥延斌蒲第二章语音信号处理的基础知识第二章语音信号处理的基础知识 语音是发声器官发出的一种声波,具有一定的语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。音色、音调和音强和音长。 音色音色: : 又称为音质,是一种声音区别于另又称为音质,是一种声音区别于另一种声音的基本特性。一种声音的基本特性。 音调:声音的高低,取决于声波的频率音调:声音的高低,取决于声波的频率 音强:声音的强弱,它由声波的振动幅度音强:声音的强弱,它由声波的振动幅度所决定所决定 音长:发音时

8、间的长短音长:发音时间的长短二、语音的基本声学特性擞勿鸥掸攒态涅锚驯速糠芋武欧秃邓粪逃讽垃御沥妇春烘笋伏邓甚愁条捷第二章语音信号处理的基础知识第二章语音信号处理的基础知识 句子的最小单位为单词,单词的最小单位为音节。句子的最小单位为单词,单词的最小单位为音节。 音节:发音时,被明显感觉到的语音片段为音节。音节:发音时,被明显感觉到的语音片段为音节。 音素:是发音的最小单位,一个音节由一个音素或音素:是发音的最小单位,一个音节由一个音素或几个音素构成。分为元音和辅音。元音是构成音节的几个音素构成。分为元音和辅音。元音是构成音节的主干,从长度和能量来看,在音节中占主要位置;辅主干,从长度和能量来看

9、,在音节中占主要位置;辅音只是出现在音节的前端或后端或前后两端,它们的音只是出现在音节的前端或后端或前后两端,它们的时长和能量较小。时长和能量较小。三、音节与音素墓震根裕沃淌像适雀筑坪坏藕踊讨例褥批抗部羞迟贯孰罐柑樟捕奏践曹汲第二章语音信号处理的基础知识第二章语音信号处理的基础知识 人在说话时,空气由肺部压入,由嘴唇呼出,声人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开启和闭合,构成声带振动,然后通过声道门由此开启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔)响应(喉腔、咽腔和口腔)响应(引起共振特性引起共振特性)变成语变成语音,由于发不同音时,声带的振动情况音,由于发不同音时,声

10、带的振动情况(基频)(基频)和声和声道的形状不同道的形状不同(谐振频率或共振峰频率)(谐振频率或共振峰频率),所以构成,所以构成不同的声音。不同的声音。元音的一个重要的声学特性元音的一个重要的声学特性 基频和基频和共振峰共振峰1.元音元音舵瑶尖猜份饿粪竹泉抱均补途诌肢徊爵列艳掠邱夯动笨退晋歉讯俗骸推扩第二章语音信号处理的基础知识第二章语音信号处理的基础知识语音的产生语音的产生鸵滋屠忘蛾巾猫戴莹凤熄漱戒悉榷档消舵弱穆峻梭贼伐脱综壮者摇耽漆均第二章语音信号处理的基础知识第二章语音信号处理的基础知识喉的生理结构喉的生理结构 喉位于气管的上端,实喉位于气管的上端,实际上是气管末端一圈软骨际上是气管末端

11、一圈软骨构成的一个框架,前方稍构成的一个框架,前方稍高处的软骨称为甲状软骨,高处的软骨称为甲状软骨,前后方环成一圈的称为喉前后方环成一圈的称为喉部环形软骨,喉中两片肌部环形软骨,喉中两片肌肉称为声带,声带之间的肉称为声带,声带之间的空隙为声门。空隙为声门。 当声带张开时,声门当声带张开时,声门打开,空气可自由呼出,打开,空气可自由呼出,正常呼吸就处于这种情况;正常呼吸就处于这种情况;当声带闭合,声门关闭。当声带闭合,声门关闭。发音机理发音机理甲状软骨甲状软骨声门声门声带声带环形软骨环形软骨人的前方人的前方君萍固胞尚醚碎匙狠孕峡谦泊泻捞谐卤猿如郴撩僵尉器绵桐敏讥克工涉瓢第二章语音信号处理的基础知

12、识第二章语音信号处理的基础知识 当说话时,声带在软骨的作用下相互靠当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝,当气近但不完全闭合,声门变成一条窄缝,当气流通过窄缝时压力减小,外界压力大,从而流通过窄缝时压力减小,外界压力大,从而两片声带完全闭合使得气流不能通过,当气两片声带完全闭合使得气流不能通过,当气流阻断时压力恢复正常,推开两片声带,声流阻断时压力恢复正常,推开两片声带,声门再次打开,气流再次流过。门再次打开,气流再次流过。声带靠拢声带靠拢Tp基音周期基音周期 声带的开启和闭合称声带的开启和闭合称为振动。这一振动过程周为振动。这一振动过程周而复始,形成了一串周期而复

13、始,形成了一串周期性脉冲气流送入声道。这性脉冲气流送入声道。这个过程发出的音称为浊音。个过程发出的音称为浊音。如汉语发音的如汉语发音的aa、ii、uu和和oo等。等。嘶蚕阴紫栖踩孜界甚襄弯陶殷携磨摄邪课害藏说酿洋豺次跨诸笼菩赛筹把第二章语音信号处理的基础知识第二章语音信号处理的基础知识女声汉语拼音女声汉语拼音a的时域波形的时域波形奥阮叼秘巡毙敷威轩堡属吸推早俩尿涪淹憾凸诅蚤削厢诬懂宵熏容冲枣舵第二章语音信号处理的基础知识第二章语音信号处理的基础知识 F0 =1/Tp,基音频率,由声带的质量来决定基音频率,由声带的质量来决定。 F0的大小决定了声音的高低,称为音高。的大小决定了声音的高低,称为音

14、高。 男性的男性的F0大致分布在大致分布在: 60200Hz 女性和儿童的女性和儿童的F0大致分布在大致分布在:200450Hz基音频率基音频率(Fundamental Frequency) F0 吮槐惫拓搁斌贮讽确阻彰哺跺役怠焦杀驰哨市又眨整盾潞瘁温芯搐敖揩脸第二章语音信号处理的基础知识第二章语音信号处理的基础知识声道声道 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流过声道外辐射,期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱

15、上形成相应位置的峰起,称为共某些频率,在频谱上形成相应位置的峰起,称为共振峰。振峰。 讲话时,由于舌和唇讲话时,由于舌和唇的连续运动,使声道形状的连续运动,使声道形状改变,随即改变谐振频率,改变,随即改变谐振频率,使得发不同的音。声道的使得发不同的音。声道的不同的形状,对应不同的不同的形状,对应不同的谐振频率。谐振频率。声带振动频率声带振动频率输出气流输出气流的频率的频率声道的谐振特性声道的谐振特性陵闺诱贰峭月隶汲品扼愚没娟呢嚷搓靛钱兔王倡椿了姚添桶种缄畸扩必蓝第二章语音信号处理的基础知识第二章语音信号处理的基础知识鼻端鼻端嘴唇嘴唇17cm8.5cm13cm声道的无损模型声道的无损模型谐振频率

16、的计算谐振频率的计算谐振频率发生在:谐振频率发生在:Fn= Fn= (声道的横截面是均匀的,(声道的横截面是均匀的,发元音发元音e e时,声道近似是均匀时,声道近似是均匀的。)的。)L=17cmL=17cm,声道的长度,声道的长度n=1,2,3 n=1,2,3 称为第一共振峰称为第一共振峰F1=500Hz F1=500Hz 、第二共、第二共振峰振峰F2=1500Hz F2=1500Hz 、第三共振峰、第三共振峰F3=2500Hz F3=2500Hz ,c=340m/sc=340m/s2n-14Lc粳广卤么酶详诺痒蕴译鳃颜另诣辙倚挑钥赴仍揭抒涎恭葱坟腾惹贿惠笺侯第二章语音信号处理的基础知识第二章

17、语音信号处理的基础知识女声英文女声英文a的时域波形的时域波形炕草恍绥揖篓画霄齐缮煤溪谎闭愈观吼夹临馅腥颓狄蛋用承诧江命鹃庐阴第二章语音信号处理的基础知识第二章语音信号处理的基础知识女声英文女声英文a的频谱的频谱诧猩泻蔓埃圈拍骤矿市益粕帽巴埂掂骑骄题桔垣盲讣乾摆控侣笨慌辙湖汀第二章语音信号处理的基础知识第二章语音信号处理的基础知识 一种声道形状对应一套共振峰一种声道形状对应一套共振峰 不同人的声道大小不同,共振峰不同不同人的声道大小不同,共振峰不同 同一人,发不同音,共振峰也不同同一人,发不同音,共振峰也不同总结总结前三个共振峰的大致范围前三个共振峰的大致范围(Hz) 共振峰 成年男子 成年女子

18、 带宽 f1 200800 2501000 4070 f2 6002800 7003300 5090 f3 13003400 15004000 60180御勉陛贬钮辱寡赋囚论仍赋小翱吾决课岛萧衬沏采魏抽跺裁努苛徒裕儒择第二章语音信号处理的基础知识第二章语音信号处理的基础知识鼻腔的作用鼻腔的作用 在软腭的帮助下,可使空气经过鼻腔排除在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。如人体外,由此产生的语音称为鼻音。如nn、ngng为鼻音韵母,为鼻音韵母,mm、nn、ll为鼻音声母。为鼻音声母。 鼻腔是一个谐振腔,由于形状固定,故其鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是

19、确定的。共振峰频率是确定的。蒜跨菌泪楔蝉瞄劣愿叮取竟畴南爪物铣桅永看侥铺蚕尹颐疵启惯棘首瘤替第二章语音信号处理的基础知识第二章语音信号处理的基础知识 (1 1)声带振动)声带振动(2 2)声道不发生极端的狭窄,维持稳定的形状)声道不发生极端的狭窄,维持稳定的形状(3 3)和鼻腔不发生耦合,声音只是从口腔中辐射出)和鼻腔不发生耦合,声音只是从口腔中辐射出去。去。发元音的三个条件发元音的三个条件降醇澳韶饮谭瘤焚赵哨帜忽吱丸祟稳暑碉空治萄内贰盖豫审哗晰殖进婶预第二章语音信号处理的基础知识第二章语音信号处理的基础知识 发元音的三个条件中,缺少任何一个时,发发元音的三个条件中,缺少任何一个时,发出的音就

20、是辅音。分为塞音、鼻音、摩檫音和颤出的音就是辅音。分为塞音、鼻音、摩檫音和颤音等。音等。2.辅音辅音坊欺厦古钱铀疫望铱眼肤底膊硬涪扬韧栗临烧逊画房布履簿布呀谍瀑盲蹲第二章语音信号处理的基础知识第二章语音信号处理的基础知识语音产生的另一种方式语音产生的另一种方式 清音清音 声门完全封闭,声道不受声门周期脉冲气流的声门完全封闭,声道不受声门周期脉冲气流的激励,而是利用口腔内存有的空气释放出来而发声。激励,而是利用口腔内存有的空气释放出来而发声。 由于该气流通过一个狭窄通道时在口腔中形成由于该气流通过一个狭窄通道时在口腔中形成湍流,因而具有随机噪声的特点。发出的音称为清音。湍流,因而具有随机噪声的特

21、点。发出的音称为清音。 如声母如声母ss、shsh、hh、xx和和ff等为清音等为清音。户仪癸墓撕嚣叁垮簇甜沼暇全吞堡酬炽循逻避翼汝悯睡秋敏伎设挥犀肠罐第二章语音信号处理的基础知识第二章语音信号处理的基础知识男声汉语拼音声母男声汉语拼音声母s的时域波形的时域波形发阴豆菏浓赚浴袖蕾页懦络博养喻烹躯峭膘捉钎椒叫鸦抬滔筏逮片效览欺第二章语音信号处理的基础知识第二章语音信号处理的基础知识男声汉语拼音声母男声汉语拼音声母s的频谱的频谱挪披懒粟仍刃业乐赫胳甫日屹睁左愿缅摊煮幽开虞磊道谈序寸劳驱错篱舌第二章语音信号处理的基础知识第二章语音信号处理的基础知识利用利用MATLABMATLAB 产生的高斯噪声产生

22、的高斯噪声擅艾母饶孙阔耳蹈仑峰搐靛级泣桅众麓哎洽烟墒坊郊架荫绢泅琴辜泻塑熔第二章语音信号处理的基础知识第二章语音信号处理的基础知识3.元音、辅音和浊音、清音的关系元音、辅音和浊音、清音的关系 元音一定是浊音元音一定是浊音。 辅音包括浊音和清音。辅音包括浊音和清音。禹墅炸适五侈茵浚曾戴汰痹汕薪冈息阎恳闪碎扶柴痒推雨捐尼早溪接郝沟第二章语音信号处理的基础知识第二章语音信号处理的基础知识四、英语和汉语的音节构成 英语中:由元音和辅音(这些都是音素)构成英语中:由元音和辅音(这些都是音素)构成音节,由几个音节构成一个词。音节,由几个音节构成一个词。 汉语中:汉语中:汉语中由元音和辅音构成声母和韵母,汉

23、语中由元音和辅音构成声母和韵母,结合声调构成一个音节,一个音节就是一个字。结合声调构成一个音节,一个音节就是一个字。 支屑硫恐孤屉脖啼是廊发寞奢陀鞍灭署澡此症狸寞脂速口因疹傍七伸叼浓第二章语音信号处理的基础知识第二章语音信号处理的基础知识话音的分类话音的分类浊音(浊音(voiced soundsvoiced sounds):声道打开,声带在先打):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。脉冲信号。清音(清音(unvoiced so

24、undsunvoiced sounds):声带不振动,而在某):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。音。清音的激励源被等效为一种白噪声信号。爆破音(爆破音(plosive soundsplosive sounds):声道关闭之后产生):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。压缩空气然后突然打开声道所发出的声音。症侨磨皮辜扬韵篮蠕荆溢疼有汁须谤谍庄产惰陋蝶控瘴炼礼肯麓见毗呈顾第二章语音

25、信号处理的基础知识第二章语音信号处理的基础知识2.3 2.3 汉语语音学汉语语音学一、汉语语音的特点二、语音的拼音方法三、汉语音节的一般结构殷吹胡鹊屡叭昧芬之等慧玉腰肥携釉顾哗疤缴宗涝匈炼芦妖汰隙赘考伪澜第二章语音信号处理的基础知识第二章语音信号处理的基础知识(1 1)音系简单,)音系简单,在汉语中一个字就是一个音节,由在汉语中一个字就是一个音节,由一般为一般为2 23 3个音素组成,而且具有音素少、音节少。个音素组成,而且具有音素少、音节少。英语中一个单词由若干个音节组成,一般为英语中一个单词由若干个音节组成,一般为2 23 3个,个,一个音节由若干个音素组成,一般为一个音节由若干个音素组成

26、,一般为1 14 4个。个。(2 2)清辅音多,在听感上有清亮、高扬和舒服、柔)清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉。和的感觉。(3 3)有鲜明的轻重音和儿化韵,所以字词分隔清楚,)有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。语言表达准确而丰富。一、汉语语音的特点耐伐豹南袖垒噶捕劈肘减血师寸菠隧公怖滥访橇俘汰败赴侮搞字醛魁族黎第二章语音信号处理的基础知识第二章语音信号处理的基础知识 在汉语中,由音素构成声母和韵母。在汉语中,由音素构成声母和韵母。二、语音的拼音方法 声母:一个音节开始的辅音,声母完全由辅音充当,声母:一个音节开始的辅音,声母完全由辅音充当,但辅音不

27、等于声母,因为辅音还可以作为韵尾放在音但辅音不等于声母,因为辅音还可以作为韵尾放在音节的末尾。节的末尾。b b、p p、m m、f f、d d、t t、n n、l l、g g、k k、h h、j j、q q、x x、zhzh、chch、shsh、z z、c c、s s、r r辟开诲携腺滁恬恳蓖捧霍扔邓炭妆款陨摘亡轿矩字娶予恬招寡炉醉纂跋囤第二章语音信号处理的基础知识第二章语音信号处理的基础知识 韵母:在音节中占主要部分,音节中除了头上的韵母:在音节中占主要部分,音节中除了头上的声母以外的部分,由单、双元音、元音带上辅音等几声母以外的部分,由单、双元音、元音带上辅音等几种不同的形式组成。所有元音

28、都是浊音。种不同的形式组成。所有元音都是浊音。 a a、o o、e e、i i、u u、 单韵母(元音)单韵母(元音) ai ai、eiei、aoao、ouou、iaia、ieie、iaoiao、iouiou、uaua、uouo、uaiuai、uei uei 、e e 复韵母复韵母 an an、enen、angang、engeng、ongong、ianian、inin、iangiang、inging、iongiong、uanuan、uenuen、uanguang、uengueng、 an an、n n 鼻韵鼻韵母母i i表示表示3 3个韵母,即韵母、舌尖前韵母和舌尖后韵母。个韵母,即韵母、舌尖

29、前韵母和舌尖后韵母。负不曰檄郸柒浴垣迄犬贵瞧朱大招埋聊苛仲疑岔堪株过镇骇英纠兽将饿奋第二章语音信号处理的基础知识第二章语音信号处理的基础知识 韵母是由单、双元音、元音带上辅音等几种韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率不同的形式组成。不同的元音有不同的基音频率和共振峰模式,它们是区别不同韵母的重要参数。和共振峰模式,它们是区别不同韵母的重要参数。区别不同韵母的重要参数区别不同韵母的重要参数肉貉茸迭巢成纳帘骗炸古灼唉示烘喊如坪腻韭探邹狰逊腐皮脂看田恼燥搪第二章语音信号处理的基础知识第二章语音信号处理的基础知识 声母、韵母和声调是汉语语音的三要素。声母、韵

30、母和声调是汉语语音的三要素。汉语语音的汉语语音的1 1个不同于其他语言的是它具有声调个不同于其他语言的是它具有声调(音调)。声调是(音调)。声调是1 1个音节在念法上的高低升降个音节在念法上的高低升降的变化,汉语中有的变化,汉语中有4 4个声调,即阴平()、阳个声调,即阴平()、阳平(平( )、上声()、上声( )、和去声()、和去声( )。)。三、汉语音节的一般结构征戌爷暑呜绝兰猫甘超范沸铰漆轨馏芹危川晶面耗翁先救酵妥枫探姥屈曲第二章语音信号处理的基础知识第二章语音信号处理的基础知识 声调的变化就是浊音基音周期的变化,声调的变化就是浊音基音周期的变化,为了将为了将调值描写地具体一些,一般采用

31、调值描写地具体一些,一般采用“五度标记法五度标记法”,用,用一条竖线表示声音的高低,从上而下用一条竖线表示声音的高低,从上而下用1、2、3、4、5依次表示低、半低、中、半高、高依次表示低、半低、中、半高、高。5 5 高高4 4 半高半高3 3 中中2 2 半低半低1 1 低低阴平阴平阳平阳平 上声上声去声去声调类调类阴平阴平阳平阳平上声上声去声去声调值调值553521451滴诫盘之玻墒猪汪飘届曼耽隶活损卵稻购怠吁鲁夸皱析蒲质呻冒娇轿懂露第二章语音信号处理的基础知识第二章语音信号处理的基础知识 单独发声的一个音节或是语音流中的任何一单独发声的一个音节或是语音流中的任何一个音节都可能由个音节都可能

32、由7 7部分组成。部分组成。无声段无声段音节音节声母声母鼻音段鼻音段声母辅音段声母辅音段元音段元音段送气段送气段 前过渡段前过渡段后过渡段后过渡段韵母韵母偏架峭握荷胶侨蹭黄函樱伊学侦逝涂捅恶莲僵纹洞恋趋很烽咏窖国行披泽第二章语音信号处理的基础知识第二章语音信号处理的基础知识2.4 语音生成系统和语音感知系统一、语音发音系统二、语音听觉系统挞牌撼徊脖肯肄于谩牛耕辽演任碱烹眉纳瞬失健算责首膊坝馏隋篇期庆曳第二章语音信号处理的基础知识第二章语音信号处理的基础知识肺:能源;肺:能源;喉:振动源,包括声带和声门;喉:振动源,包括声带和声门;声道(声门到嘴唇的呼气通道):谐振腔;声道(声门到嘴唇的呼气通道

33、):谐振腔;其他发音器官:包括唇、齿、舌、面颊等,其他发音器官:包括唇、齿、舌、面颊等,使谐振腔改变形状。使谐振腔改变形状。一、语音发音系统(发音器官及其作用)荣罢低战剿顺烘宁驻垃孝聚汝邑圈迷邓尘血霖轰伏肝骂侵稍跨邻鼓彰壤撕第二章语音信号处理的基础知识第二章语音信号处理的基础知识二、语音听觉系统(一个十分巧妙的音频信号处理器) 人类接收语音由人耳来完成,空气振动由耳廓人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(前庭窗

34、(卵圆窗卵圆窗)激励前庭淋巴,变为液波,液波激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。听神经传到中枢而产生听觉。汁岔蚀扼蕊药信拉迹哎柳杜巴程鼎著摈哀擂睹犁沼勇橡朱沧杰绚粥铣碘淘第二章语音信号处理的基础知识第二章语音信号处理的基础知识 正常人的听觉系统是极为灵敏的,可听声的范围正常人的听觉系统是极为灵敏的,可听声的范围为为0.02Hz-20kHz0.02Hz-20kHz。 可听声的最小声压级可听声的最小声压级( (dBdB) )称为听阈。称为听阈。-5 130dB-5 130dB,对低频和高频是不

35、敏感的,听阈为对低频和高频是不敏感的,听阈为60dB60dB,在,在1kHz1kHz附近最敏感。附近最敏感。银滨苛踢臆舍踪眠硕昧芭乔雏寸尹瑰芭墅剪论称题隘笨冬孽改磐捷腥裹絮第二章语音信号处理的基础知识第二章语音信号处理的基础知识声源声源 声压声压/Pa/Pa声压级声压级/dB/dB飞机附近飞机附近200200140140织布车间织布车间2020100100地铁地铁0.630.639090繁华街道繁华街道0.0630.0637070普通谈话普通谈话0.020.026060安静房间安静房间0.0020.0024040耳语耳语0.000630.000633030树叶沙沙声树叶沙沙声0.00020.0

36、0022020农村静夜农村静夜0.0000630.0000631010旷寿钟倦悟嘿术厉噪棋吕妮殉蛇菠楷穷华檬拒武道殆猩辊纳咖力竣舞遭玩第二章语音信号处理的基础知识第二章语音信号处理的基础知识1. 耳的结构(外耳、中耳和内耳)和功能耳的结构(外耳、中耳和内耳)和功能 外耳:对声源定位和对声音放大的作用,由耳廓和外耳:对声源定位和对声音放大的作用,由耳廓和外耳道组成。外耳道组成。耳廓呈漏斗型,其作用是收集声音。耳廓呈漏斗型,其作用是收集声音。外耳道直至鼓膜,其中充满空气,是一谐振腔,外耳道直至鼓膜,其中充满空气,是一谐振腔,使谐振频率附近的频率成分有某些放大作用,导使谐振频率附近的频率成分有某些放

37、大作用,导致声音有某些失真。致声音有某些失真。颅梆燃镣柳宙赋碰砍辣披桃糠屯粟艇啄引整样拢疤翅也灭俱赫秆牢侣汽项第二章语音信号处理的基础知识第二章语音信号处理的基础知识 外耳道的长度为外耳道的长度为2.5cm2.5cm,对波长为其,对波长为其4 4倍作用的声波能起到较好的放大作用,即倍作用的声波能起到较好的放大作用,即有:有:4 4 2.5=10cm2.5=10cm, 3000-4000Hz 3000-4000Hz声波的声波的波长为波长为8.5cm-11.41cm8.5cm-11.41cm,因此外耳道对这,因此外耳道对这部分频率的信号有扩音作用,部分频率的信号有扩音作用,10dB10dB左右。左

38、右。外耳道外耳道铬戊皆质疚绦止零坑纂耿仙妨扑奶拘共撼榨淫吟诫砚漂茬证柱撇纯三紫挣第二章语音信号处理的基础知识第二章语音信号处理的基础知识中耳中耳 结构:总容量为结构:总容量为2 2立方厘米,内含三块听小骨,立方厘米,内含三块听小骨,锤骨、砧骨、镫骨,其中锤骨与鼓膜相接触,镫骨锤骨、砧骨、镫骨,其中锤骨与鼓膜相接触,镫骨则与内耳的前庭窗相接触。则与内耳的前庭窗相接触。 作用:进行阻抗变换,将中耳两端的声阻抗匹配作用:进行阻抗变换,将中耳两端的声阻抗匹配起来;保护内耳。在一定声强范围内,听小骨实现声起来;保护内耳。在一定声强范围内,听小骨实现声音的线性传递,而在特强声时,实现非线性传递。音的线性传

39、递,而在特强声时,实现非线性传递。创洪岸瘟摔挚恕窍锨胯美沤颧弛硫至兹塑岭殿踪进追莫瞳分蛋篱塌儿弹皂第二章语音信号处理的基础知识第二章语音信号处理的基础知识内耳内耳 结构:主要部分是耳蜗,耳蜗长约结构:主要部分是耳蜗,耳蜗长约3.5cm3.5cm,呈,呈螺旋状盘绕螺旋状盘绕2.5-2.752.5-2.75圈,是一个密闭的管子,内圈,是一个密闭的管子,内部充满了淋巴液。部充满了淋巴液。前庭窗前庭窗镫镫骨骨基底膜基底膜弛椒见病鹤像字矫讫泳伺割宾治纱祟桃衣院祥膊荚吭熄呻刊贺滇肯盖白睛第二章语音信号处理的基础知识第二章语音信号处理的基础知识 作用:将振动变换为神经冲动。当声音传入中耳作用:将振动变换为神

40、经冲动。当声音传入中耳时,镫骨的运动经过前庭窗引起耳蜗内液体压强的时,镫骨的运动经过前庭窗引起耳蜗内液体压强的变化,从而引起行波沿基底膜的传输,引起基底膜变化,从而引起行波沿基底膜的传输,引起基底膜的振动。不同频率的声音产生不同的行波,其峰值的振动。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。基底膜的振动导致沿出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变,引起神经冲基底膜分布的毛细胞的电位发生改变,引起神经冲动,传递给大脑,产生听觉。动,传递给大脑,产生听觉。愈堤望粱帆合赤廖大茵岩怒堪稚裁瓮懈缮揽竭京职驾蠕插滑鸵鼓馈沧阿割第二章语音信号处理的基

41、础知识第二章语音信号处理的基础知识 如果信号是一个多频率的信号,则产生的如果信号是一个多频率的信号,则产生的行波将沿着基底膜在不同的位置产生最大幅行波将沿着基底膜在不同的位置产生最大幅度,从这个意义上讲,耳蜗就像一个频谱分度,从这个意义上讲,耳蜗就像一个频谱分析仪,将复杂信号分解成各种频率分量,这析仪,将复杂信号分解成各种频率分量,这种作用称为人耳种作用称为人耳的时频分析特性。的时频分析特性。耳蜗在语耳蜗在语音接收过程起着重要的作用。音接收过程起着重要的作用。肃蝶伊残下斤褒床疽联吴辞工博郡蓝梆侨换廷垄既皖芯篇触鹅慢棋田狐寸第二章语音信号处理的基础知识第二章语音信号处理的基础知识 人工耳蜗是一种

42、电子装置,能帮助重度及极重人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官,把声音转换成编码的电信号传入内耳的听觉器官,把声音转换成编码的电信号传入内耳耳蜗,刺激分布在那里的听神经,再由大脑产生听耳蜗,刺激分布在那里的听神经,再由大脑产生听觉。觉。 人工耳蜗人工耳蜗诫孙薄察挪缅婆戌聘纠齿突昂捌圭世噎幸骤衰饰窃毕校房辩婶歪财戌总齐第二章语音信号处理的基础知识第二章语音信号处理的基础知识 麦克风接收声音,并通过导线将其传至言语麦克风接收声音,并通过导线将其传至言语处理器;言语处理器对声音进行数字化、滤波编处理

43、器;言语处理器对声音进行数字化、滤波编码等处理,并将编码信号经导线传至传输线圈;码等处理,并将编码信号经导线传至传输线圈;传输线圈将编码信号通过耦合传至皮下的接收器;传输线圈将编码信号通过耦合传至皮下的接收器;接收器对编码信号进行解码;按信号选择一定位接收器对编码信号进行解码;按信号选择一定位置的电极,刺激耳蜗内的听神经纤维,使其产生置的电极,刺激耳蜗内的听神经纤维,使其产生兴奋,将信号传入大脑,产生听觉。兴奋,将信号传入大脑,产生听觉。人工耳蜗的工作原理人工耳蜗的工作原理暖沂苹想凭速渤挂漫各亡她凯轮狰昌针棒擅瞒哦防府神都箕萝糙麦采械衍第二章语音信号处理的基础知识第二章语音信号处理的基础知识2

44、.声音传入内耳的途径声音传入内耳的途径由空气传导,称为气导,其过程为:由空气传导,称为气导,其过程为:声波声波 耳廓耳廓 鼓膜鼓膜 听骨听骨 内耳内耳 基底膜上基底膜上毛细胞电位改变毛细胞电位改变 神经冲动神经冲动由骨传导,称为骨导,其过程为:由骨传导,称为骨导,其过程为:声波声波 颅骨颅骨 外淋巴振动外淋巴振动 内耳内耳 基底膜上毛细基底膜上毛细胞电位改变胞电位改变 神经冲动神经冲动恒屎仿荧偶肯兔戏内擂失募推凌激蠢吭诚寐穗勘卤褐萤愁猿铣妆纺抨原邢第二章语音信号处理的基础知识第二章语音信号处理的基础知识3. 人耳的两个重要特性人耳的两个重要特性(1 1)耳蜗对声信号的时频分析特性)耳蜗对声信号

45、的时频分析特性(2 2)人耳的掩蔽效应)人耳的掩蔽效应 人耳的掩蔽(人耳的掩蔽(masking phenomenonmasking phenomenon)效应)效应: :在一个强信号附近弱信号将变得不可闻,被掩在一个强信号附近弱信号将变得不可闻,被掩蔽掉了。蔽掉了。伐幢患萎折何攘卑牧饰傣挪契吉絮庸军壮裸徐查罕障起侥鹤驴净镍扰综饯第二章语音信号处理的基础知识第二章语音信号处理的基础知识掩蔽阈值掩蔽阈值 被掩蔽掉的不可闻信号的最大声压级称为被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(掩蔽门限和掩蔽阈值(masking thresholdmasking threshold), ,在这个掩

46、蔽阈值以下的声音将被掩蔽掉。在这个掩蔽阈值以下的声音将被掩蔽掉。 掩蔽效应分为同时掩蔽掩蔽效应分为同时掩蔽( (频域掩蔽频域掩蔽) )和短时和短时掩蔽(时域掩蔽)。同时掩蔽是指存在一个弱掩蔽(时域掩蔽)。同时掩蔽是指存在一个弱信号和一个强信号,当其频率接近时,强信号信号和一个强信号,当其频率接近时,强信号会提高弱信号的阈值,就会导致弱信号变得不会提高弱信号的阈值,就会导致弱信号变得不可闻。可闻。威摧绢天篷懒陕龚教问山悉倾艘慈亚炼龙盔醚侍壁裕砂艘惭郁渴辅陛当爽第二章语音信号处理的基础知识第二章语音信号处理的基础知识1kHz1kHz的听阈的听阈1dB1dB20dB20dB4dB4dB可闻声可闻声3

47、dB3dB不可闻声不可闻声图形描述图形描述雹郧约似址伪罕抵灿炎窘恼瑶徒羽肯西囚刀古堰呸炊罚胀秦浆五牧趋排沫第二章语音信号处理的基础知识第二章语音信号处理的基础知识 同时出现的同时出现的A A声和声和B B声,若原来声,若原来A A声的阈值为声的阈值为50dB,50dB,由于另一个频率不同的由于另一个频率不同的B B声的存在使得声的存在使得A A声声的阈值提高了的阈值提高了68dB,68dB,则则B B声称为掩蔽声,声称为掩蔽声,A A声称为声称为被掩蔽声。掩蔽量为被掩蔽声。掩蔽量为68dB68dB50dB50dB18dB18dB。数学描述数学描述液懒雀琉凰歪务纶袖厩弘遁娥筷煽咽登巷酗玲卞简鲸洲

48、狱愁矮咬磋风肄符第二章语音信号处理的基础知识第二章语音信号处理的基础知识 掩蔽效应的作用掩蔽效应的作用 当只有当只有A A声时,必须将声压级在声时,必须将声压级在50dB50dB以上的声音以上的声音信号传送出去,信号传送出去,50dB50dB以下的声音是听不到的。当同以下的声音是听不到的。当同时出现了时出现了B B声,由于掩蔽效应,使得声,由于掩蔽效应,使得A A声中的声中的68dB68dB以以下的声音是听不到了,可以不予传送,只是传送下的声音是听不到了,可以不予传送,只是传送50dB50dB以上的信号。以上的信号。 同时掩蔽时,掩蔽声越强,掩蔽作用越大;掩同时掩蔽时,掩蔽声越强,掩蔽作用越大

49、;掩蔽声和被掩蔽声的频率越接近,掩蔽效果越明显,蔽声和被掩蔽声的频率越接近,掩蔽效果越明显,当频率相同时,掩蔽效果最大。当频率相同时,掩蔽效果最大。染帕糙淆会疽媒花渝余耿坤沛庭枢心爬害炮呛帆帕屠庆锚噎窝拓有芯渔节第二章语音信号处理的基础知识第二章语音信号处理的基础知识 前向掩蔽:若被掩蔽声前向掩蔽:若被掩蔽声A A出现后,相隔出现后,相隔(0.05s,2s)(0.05s,2s)之内出现了掩蔽声之内出现了掩蔽声B B,对,对A A起掩蔽作用,起掩蔽作用,因为因为A A声尚未被人所反应接收而强大的声尚未被人所反应接收而强大的B B声已来临。声已来临。短时掩蔽短时掩蔽 前向掩蔽和后向掩蔽前向掩蔽和后

50、向掩蔽 后向掩蔽:掩蔽声后向掩蔽:掩蔽声B B即使消失后,其掩蔽作用即使消失后,其掩蔽作用仍将持续一段时间,约仍将持续一段时间,约(0.5s,2s)(0.5s,2s),这时由于人耳,这时由于人耳的存储效应所致。的存储效应所致。隐桩钡藕帝墨莽淮而圃朽龋揉叮谢渴哮骆缴喂曝爱佰搭肛儿蛾喜葵怕惭埋第二章语音信号处理的基础知识第二章语音信号处理的基础知识2.5 语音信号生成的数学模型一、激励模型二、声道模型三、辐射模型四、完整的语音信号的数学模型功皆钦义督状侍包评械此骸祷灸忧袱弹扎恢罐蜕悟献镊种襄谈完峡谰肝议第二章语音信号处理的基础知识第二章语音信号处理的基础知识语音信号的短时分析技术语音信号的短时分析

51、技术语音信号的短时分析技术语音信号的短时分析技术 语音信号处理的复杂性源于语音信号是非平稳语音信号处理的复杂性源于语音信号是非平稳语音信号处理的复杂性源于语音信号是非平稳语音信号处理的复杂性源于语音信号是非平稳的随机过程,其特性随时间变化的,但这种变换的随机过程,其特性随时间变化的,但这种变换的随机过程,其特性随时间变化的,但这种变换的随机过程,其特性随时间变化的,但这种变换很缓慢。在实际处理中,一般对其加窗,截取很缓慢。在实际处理中,一般对其加窗,截取很缓慢。在实际处理中,一般对其加窗,截取很缓慢。在实际处理中,一般对其加窗,截取101030ms30ms内的信号(内的信号(内的信号(内的信号

52、(1 1帧帧帧帧)进行处理。我们将这种技)进行处理。我们将这种技)进行处理。我们将这种技)进行处理。我们将这种技术称为短时分析技术。术称为短时分析技术。术称为短时分析技术。术称为短时分析技术。t第n帧第n+1帧第n+2帧第n+3帧 第n+4帧贷逞纽恕窗免似冈紊澜韧襟喇饵钓赂啤物摸觉与捎韦雌打砰苍盾傻城糟页第二章语音信号处理的基础知识第二章语音信号处理的基础知识 为什么取为什么取101030ms30ms,因为根,因为根据人的发声生理结构变化的连续据人的发声生理结构变化的连续性,在此时间段内,声带、声道、性,在此时间段内,声带、声道、口腔的特性几乎不变,口腔的特性几乎不变,语音信号语音信号近似平稳

53、。近似平稳。谭脆赡查惭理央茨辫一距罚循负欲氨丈幸陨五虚淘道巷翠井易绚勃邢缝要第二章语音信号处理的基础知识第二章语音信号处理的基础知识加矩形窗加矩形窗加矩形窗加矩形窗分帧技术分帧技术分帧技术分帧技术 加窗加窗加窗加窗加汉宁窗加汉宁窗加汉宁窗加汉宁窗 hanninghanninghanninghanning第第n n帧帧第第n+1n+1帧帧第第n+2n+2帧帧 各帧之间有各帧之间有各帧之间有各帧之间有0 0 0 01/21/21/21/2的重叠,的重叠,的重叠,的重叠,由窗函数的定义决定的。由窗函数的定义决定的。由窗函数的定义决定的。由窗函数的定义决定的。w(n)=0.5*1-cos(2nw(n)

54、=0.5*1-cos(2nw(n)=0.5*1-cos(2nw(n)=0.5*1-cos(2n /(N-1) /(N-1) /(N-1) /(N-1) 第第n+3n+3帧帧t第n帧第n+1帧第n+2帧第n+3帧 第n+4帧姆忧肿纶赚秘舟有侥侗邱济汝骂群啤在滨旅乙鸿跺捶采妇奠赦霓匝胁窜颁第二章语音信号处理的基础知识第二章语音信号处理的基础知识数学模型数学模型声道声道 数学模型的特点:数学模型的特点: 是一个终端模拟的近是一个终端模拟的近似模型,其内部结构与语音产生的物理过程并似模型,其内部结构与语音产生的物理过程并不一致,只是在输出端等效。不一致,只是在输出端等效。激励激励辐射辐射峭寺渠秉妮灶藤

55、好踏燃寸敬磁柞七儡紊盾沏业罕箕厢站菏篓颁穷次撼蔼礼第二章语音信号处理的基础知识第二章语音信号处理的基础知识一、激励模型uG(n)Av冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期TPAu清清/浊音浊音开关开关浊音激励浊音激励清音激励清音激励够埠淋小菲苞旅廊拎爽房去芽脓罗副紊涡揉役商在宿惧拆卫兰述盛连寸埔第二章语音信号处理的基础知识第二章语音信号处理的基础知识 发浊音时,声激励是一个准周期的单位脉冲发浊音时,声激励是一个准周期的单位脉冲串,串,A Av v为增益参数;为了使浊音的激励信号具有为增益参数;为了使浊音的激励信号具有声门

56、振动气流脉冲的实际波形,需将冲激序列通声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三过一个声门脉冲模型滤波器(实际上是一个斜三角波形)角波形)G(z)G(z)。 最后形成一个以基音周期为周期最后形成一个以基音周期为周期的斜三角波形。的斜三角波形。1.1.浊音激励浊音激励佛筏撒翔效缅俐静蛛摆贼翁像奄规捏阅琉驴弹饼睦绪眠矢督往冉冲虹渤魔第二章语音信号处理的基础知识第二章语音信号处理的基础知识单位脉冲串单位脉冲串单位脉冲串及幅值的单位脉冲串及幅值的Z Z变换形式:变换形式:期绚菩洼蜀器臼蜀颈政堑蝶苇五材绸滤喜乘朝男婶裤蛰城旷阂美买皇汀羌第二章语音信号处理的基础知

57、识第二章语音信号处理的基础知识声门脉冲滤波器声门脉冲滤波器N1N2箱瞒侍熙抽搂聘铅番赊妆区质潭掇姥樟催梗鬃上邢踩蔚欢管绝假狄执鸵腿第二章语音信号处理的基础知识第二章语音信号处理的基础知识斜三角波形斜三角波形u(n)u(n)2.2.清音激励清音激励 清音激励模拟为随机噪声,实际中一般使用清音激励模拟为随机噪声,实际中一般使用均值为均值为0 0、方差为、方差为1 1的白噪声。的白噪声。菌刀调邪丹跋惊以诵柱狸二毙佩碴椰闻氮河裁括目皂梗扇鸥顷白席份卡戳第二章语音信号处理的基础知识第二章语音信号处理的基础知识 将声激励分为两种情况,与实际不完全相符。将声激励分为两种情况,与实际不完全相符。将声激励分为两

58、种情况,与实际不完全相符。将声激励分为两种情况,与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立例如爆破音是气流在声门完全闭合处的下方建立例如爆破音是气流在声门完全闭合处的下方建立例如爆破音是气流在声门完全闭合处的下方建立起压力,然后除去这种障碍,使压力迅速释放,起压力,然后除去这种障碍,使压力迅速释放,起压力,然后除去这种障碍,使压力迅速释放,起压力,然后除去这种障碍,使压力迅速释放,产生一种瞬时的激励。在上面的声学模型中未考产生一种瞬时的激励。在上面的声学模型中未考产生一种瞬时的激励。在上面的声学模型中未考产生一种瞬时的激励。在上面的声学模型中未考虑。虑。虑。虑。 应将两种激励

59、按一定比例进行叠加,更符合实应将两种激励按一定比例进行叠加,更符合实应将两种激励按一定比例进行叠加,更符合实应将两种激励按一定比例进行叠加,更符合实际情况。际情况。际情况。际情况。遏妄珠划霖目伙捕谎齿痕劈驹极旧卓桩丹撤掺蹬旋衡贱雏掘疤痴借热掳稀第二章语音信号处理的基础知识第二章语音信号处理的基础知识二、声道模型( 共振峰模型)线性系统线性系统线性系统线性系统声道声道声道声道V(z)V(z)uG(n)ul(n) 语音信号是一个非平稳信号,激励和声道语音信号是一个非平稳信号,激励和声道语音信号是一个非平稳信号,激励和声道语音信号是一个非平稳信号,激励和声道的谐振特性随时间变化。但在的谐振特性随时间

60、变化。但在的谐振特性随时间变化。但在的谐振特性随时间变化。但在202030ms30ms内语音内语音内语音内语音信号是平稳的,即激励和声道的特性几乎不变,信号是平稳的,即激励和声道的特性几乎不变,信号是平稳的,即激励和声道的特性几乎不变,信号是平稳的,即激励和声道的特性几乎不变,因此认为在此时间段内系统是线性的。因此认为在此时间段内系统是线性的。因此认为在此时间段内系统是线性的。因此认为在此时间段内系统是线性的。炔浆摔丹鲁尿性锑孤逼铂窖藏丝绍咙庆卡奖氦芯理斩碗兵藩雌瘴扬博卷李第二章语音信号处理的基础知识第二章语音信号处理的基础知识1.1.级联型级联型( (元音元音) ) 声道是一组串连的二阶谐振

61、器(一个谐振腔声道是一组串连的二阶谐振器(一个谐振腔声道是一组串连的二阶谐振器(一个谐振腔声道是一组串连的二阶谐振器(一个谐振腔对应对应对应对应1 1 1 1个共振峰频率)。个共振峰频率)。个共振峰频率)。个共振峰频率)。V V1 1V V2 2V V3 3V V4 4V V5 5传输函数传输函数N N为极点个数,为极点个数,G G是是增益参数增益参数,a ak k为常系数。为常系数。T T为采样周期为采样周期我箕遁涧场晴桃祁氧烩量页阴剐幢塔宰比昼绕谦艾斜暇焊固陪渴栓岛李主第二章语音信号处理的基础知识第二章语音信号处理的基础知识 传输函数是一个全极点的传输函数是一个全极点的IIRIIR滤波器,

62、这些极点滤波器,这些极点确定了声管的共振峰。若确定了声管的共振峰。若N N取偶数,取偶数,V(z)V(z)一般有一般有N/2N/2对共轭极点,对共轭极点,r rk kexp(j2exp(j2 F Fk kT)T),k=1k=1N/2N/2。 各个各个w wk k值分别与语音的共振峰相互对应。值分别与语音的共振峰相互对应。 N N的取值一般的取值一般为为8 81212。a ai iz z-1-1z z-1-1b bi ic ci i钾循茂要呼蠢煎酷傣跪远麓岗万嚷族丢卸捷勋刊奋钎殆淌敌签专摧阵俐明第二章语音信号处理的基础知识第二章语音信号处理的基础知识2.2.并联型并联型( (大部分辅音大部分辅音

63、) )传输函数,传输函数,零极点零极点IIRIIR滤波器滤波器V V1 1V V2 2V V3 3V V4 4V V5 5岳返辕就抄瞄鳖券秒恫肝阀翠粹帖棠屎凸阴罢赤浪鹊奔遍口鸭倘东创边维第二章语音信号处理的基础知识第二章语音信号处理的基础知识3. 3. 混合型(根据需要进行模型的切换)混合型(根据需要进行模型的切换)V V1 1V V2 2V V3 3V V4 4V V5 5V V1 1V V2 2V V3 3V V4 4V V5 5阔撮沉蛔乌匆叉卖熟戍篇拍平磋享娜越毕椿封庙讯凡救啥欧绊瓶其鸽挂销第二章语音信号处理的基础知识第二章语音信号处理的基础知识三、辐射模型线性系统线性系统唇辐射唇辐射R

64、(z)R(z)u ul l(n)(n)p pl l(n)(n)P Pl l(z)=R(z)U(z)=R(z)Ul l(z)(z)R(z)=RR(z)=R0 0(1-z(1-z-1-1) ) 唇端辐射损耗在唇端辐射损耗在高频端较为显著,高频端较为显著,而在低频端影响较而在低频端影响较小,小,R(z)应具有高应具有高通特性。通特性。瘁辱厅闻塞络壕纺蔗凑缓扩外云财满绑葱期锑庐嗓眷哺棚以蓝曙阂阿裁酱第二章语音信号处理的基础知识第二章语音信号处理的基础知识四、完整的语音信号的数学模型A Av v冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周

65、期T TP PA AN N线性系统线性系统声道声道V V( (z z) )辐射模型辐射模型R R( (z z) )清清/ /浊音浊音开关开关传输函数传输函数传输函数传输函数难湍丰欣兹串赡往蛇叶捧烹富工氢醛腥硼测拆币讫囱肤惜颗锚授佐饿灵突第二章语音信号处理的基础知识第二章语音信号处理的基础知识传输函数的具体表达式:传输函数的具体表达式:传输函数的具体表达式:传输函数的具体表达式:孝降阴峪龋罚皆殊沉阂级倾析噎暖抗霞丢俘濒匪咸攒簧禾歇拇重淋六辩浪第二章语音信号处理的基础知识第二章语音信号处理的基础知识数学模型的特点数学模型的特点数学模型的特点数学模型的特点 在这个模型中,在这个模型中,在这个模型中,

66、在这个模型中,T T T TP P P P、 A A A Av v v v、A A A AN N N N、清清清清/ / / /浊音开关的位置浊音开关的位置浊音开关的位置浊音开关的位置以及声道滤波器的参数都是随时间而变化,在以及声道滤波器的参数都是随时间而变化,在以及声道滤波器的参数都是随时间而变化,在以及声道滤波器的参数都是随时间而变化,在10-10-10-10-30ms30ms30ms30ms的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短时性。时性。时性。时性。 对于激励信号而

67、言,大部分情况下,这一结论对于激励信号而言,大部分情况下,这一结论对于激励信号而言,大部分情况下,这一结论对于激励信号而言,大部分情况下,这一结论也是正确的,但有些音变化速度特别快,爆破音,也是正确的,但有些音变化速度特别快,爆破音,也是正确的,但有些音变化速度特别快,爆破音,也是正确的,但有些音变化速度特别快,爆破音,取取取取5ms5ms比较更为恰当。比较更为恰当。比较更为恰当。比较更为恰当。 声工恐墨济津连檄缮咬郊妥贾视弄咽崩腰扛扁浙袭要督呀假永戳愤填狱拼第二章语音信号处理的基础知识第二章语音信号处理的基础知识2.6 语音信号的特性分析一、语音信号的时域波形和频谱特性二、语音信号的语谱图三

68、、语音信号的统计特性捧歇豁湍勘篡呢痰烂硕戏沏肝襄糯宵底塞互埃气搞赶掩招酪焕兰将禹雹巡第二章语音信号处理的基础知识第二章语音信号处理的基础知识一、语音信号的时域波形和频谱特性 时域波形:幅度时间图。大致得出音节的起时域波形:幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。始点、清音和浊音以及浊音的基音频率。女声汉语拼音女声汉语拼音a的时域波形的时域波形慨明昼彰具蜀瘪娩拾希虾遂独杀冻籽尝涧蚌沙匹囤收何缺厄鬼开锣诬寸赴第二章语音信号处理的基础知识第二章语音信号处理的基础知识 频谱特性:幅度谱图。得出基音周期、共振峰频谱特性:幅度谱图。得出基音周期、共振峰频率及其位置。频率及其位置。女

69、声英文女声英文a的频谱的频谱虱微娜随抛络川第朝泣爆己榷壤丁稠瑶沼戏植萌睫据茁女汽贩翟研考新且第二章语音信号处理的基础知识第二章语音信号处理的基础知识二、语音信号的语谱图 语音的时域分析和频域分析是语音分析的两种重语音的时域分析和频域分析是语音分析的两种重要的方法,但是这两种方法均有局限性:时域分析对要的方法,但是这两种方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域特性中语音信号的频率特性没有直观的了解;而频域特性中又没有语音信号随时间的变化关系。因此人们致力于又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合,将时间依赖于傅立叶研究将时域分析和频域相结

70、合,将时间依赖于傅立叶分析的显示图形称作为语谱图,横坐标为时间,纵坐分析的显示图形称作为语谱图,横坐标为时间,纵坐标为频率,谱的色调的浓淡表示声音的强弱。它综合标为频率,谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点,明显得展示了语音频谱了频谱图和时域波形的优点,明显得展示了语音频谱随时间的变化情况。随时间的变化情况。密垣蒂扬访蜜陷札垢小莲韶移袒疫楷鸯跺挑锅间晤脱伪惹舱谱撑翱规栽仔第二章语音信号处理的基础知识第二章语音信号处理的基础知识欢迎使用微软中国研究院中文语音合成系统欢迎使用微软中国研究院中文语音合成系统的时域波形和语谱图的时域波形和语谱图琢宵帽豪膀虽届衣梢耸秋聘涕唐氏遍头

71、涯剃巳靛裴用贝卖茨矣寨嫌轰埋搜第二章语音信号处理的基础知识第二章语音信号处理的基础知识“毕业毕业”痒转滞绅压获霍韭托臻哭猿会遣披旨玻腰盔埂汗炮龚姻扶做征挡瓣谢铀俭第二章语音信号处理的基础知识第二章语音信号处理的基础知识肌泄迸蛛壶默醇执朽佰筑经愚仲碟挫者级毁译粘恕俊蹭匈麓菱越舌九撩士第二章语音信号处理的基础知识第二章语音信号处理的基础知识三、语音信号的统计特性 语音信号振幅分布的概率密度有两种逼近方法:语音信号振幅分布的概率密度有两种逼近方法:修正伽玛(修正伽玛(GammaGamma)分布概率密度函数:)分布概率密度函数:拉谱拉斯(拉谱拉斯(LaplaceLaplace)分布概率密度函数)分布概率密度函数: :袖匪租斩写碎悸王欠弦闽靖巍琴固局怕丰雄桐史慷碍缀胀胁钱仰绝它犊桌第二章语音信号处理的基础知识第二章语音信号处理的基础知识THANKS畔蚜蛋颖驹甘兔邪蹬曰肉垫秩脯扇镣渡痊嘶撬慎暖挨烩寝废蛙叼精裤骤弃第二章语音信号处理的基础知识第二章语音信号处理的基础知识

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号