第2章数字语音处理基础

上传人:m**** 文档编号:569853911 上传时间:2024-07-31 格式:PPT 页数:57 大小:1.62MB
返回 下载 相关 举报
第2章数字语音处理基础_第1页
第1页 / 共57页
第2章数字语音处理基础_第2页
第2页 / 共57页
第2章数字语音处理基础_第3页
第3页 / 共57页
第2章数字语音处理基础_第4页
第4页 / 共57页
第2章数字语音处理基础_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《第2章数字语音处理基础》由会员分享,可在线阅读,更多相关《第2章数字语音处理基础(57页珍藏版)》请在金锄头文库上搜索。

1、第2章数字语音处理基础2.2听觉的生理器官与心理2.1发音的生理器官与过程2.4语音学基础及汉语语音学2.3语音和语言2.5语音信号的特性分析第第 2 2 章数字语音处理基础章数字语音处理基础2.1发音的生理器官与过程语音:语音:由人体发音器官在大脑控制下的生理运动产生。由人体发音器官在大脑控制下的生理运动产生。发音器官:发音器官:由由肺肺和和气管气管、喉喉(包括(包括声带声带)、)、声道声道(咽腔咽腔、鼻腔鼻腔和和口腔口腔)三部分组成。)三部分组成。肺肺和和气管气管:整个语音系统的:整个语音系统的能源能源提供者提供者喉:喉:主要的声音主要的声音生成机构生成机构声道:声道:则对生成的声音进行则

2、对生成的声音进行调制调制肺:肺:胸腔内有弹性的海绵状物质,可存储空气。胸腔内有弹性的海绵状物质,可存储空气。肺的功能肺的功能: 呼吸功能呼吸功能,进行气体交换,进行气体交换 提供能量提供能量,将压缩空气供给发音器官,将压缩空气供给发音器官气管:气管:连接连接肺肺和和喉喉,是肺与声道联系的,是肺与声道联系的通道通道第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程呼吸:呼吸: 不说话时,通常是不说话时,通常是规则的规则的、平稳的平稳的、节律性节律性的的 说话时,为保持语言的连

3、续性,有说话时,为保持语言的连续性,有短暂停顿短暂停顿呼吸特点:呼吸特点:吸气短吸气短、呼气长呼气长,受受句子结构句子结构控制控制,无固定规则无固定规则气流的形成:气流的形成: 空气由肺部排入喉部,空气由肺部排入喉部, 经过声带进入声道,经过声带进入声道, 由嘴(或鼻)辐射出声波,形成了语音由嘴(或鼻)辐射出声波,形成了语音图图2.1: 2.1: 喉的构造。喉的构造。前前声带声带声门裂声门裂甲状软骨甲状软骨环形软骨环形软骨杓形软骨杓形软骨 (a) 发音阶发音阶 (b) 呼吸呼吸图图2.1喉的构造喉的构造喉:喉:由软骨和肌肉组成的复杂系统,含由软骨和肌肉组成的复杂系统,含声带声带(发音器官发音器

4、官)声带:声带: 是是阀门阀门,又是,又是振动部件振动部件 声带紧绷在喉头的前后壁上,有声带紧绷在喉头的前后壁上,有折叠折叠 声带的长度约声带的长度约10 14 mm声门:声门:两片声带之间的空间两片声带之间的空间声带的前端由声带的前端由甲状软骨甲状软骨支撑,后端由支撑,后端由杓状软骨杓状软骨支撑支撑 杓状软骨杓状软骨与与环状软骨环状软骨的上部相连的上部相连软骨由一组肌肉控制,可使软骨由一组肌肉控制,可使开启开启或或闭合闭合声带声带声带启开时,是声带启开时,是正常呼吸状态正常呼吸状态声带闭合时,肺部密封成声带闭合时,肺部密封成密室密室声带的声带的生物学功能生物学功能: 封闭气管封闭气管,保护肺

5、道保护肺道 在胸腔和腹腔在胸腔和腹腔建立建立一定的一定的气压气压声带的声带的声学功能声学功能:为语音提供主要的:为语音提供主要的激励源激励源第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程空气作用:空气作用:使声带使声带开启开启/ /闭合闭合,形成,形成脉动气流脉动气流(声门脉冲串声门脉冲串) 基音周期(振动周期)基音周期(振动周期):声带每:声带每开启开启/闭合闭合一次的一次的时间时间基音频率(基频):基音频率(基频):基音周期的基音周期的倒数倒数典型的典型的脉动气流:脉动气流:基频随人性别、年龄而不同基频随人性别、年龄而不同基频:基频:通常为通常为50

6、 450 Hz 男性一般为男性一般为50 250 Hz 女性一般为女性一般为200 450 Hz老年男性老年男性偏低偏低,小孩和青年女性,小孩和青年女性偏高偏高基频高则基频高则音调高音调高,基频低则,基频低则音调低音调低基频与声带的基频与声带的大小大小、厚薄厚薄、松紧程度松紧程度以及声门上下之间的以及声门上下之间的气压气压差差等有关等有关第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程图图2.2声带开启的面积与时间的关系曲线声带开启的面积与时间的关系曲线8642 时间时间/ms50% 35% 15% 125Hz0 2 4 6 8 10 12 14 16 面

7、面积积/mm2声道:声道:从声门至口唇的所有从声门至口唇的所有发音器官发音器官 包括包括咽腔咽腔、口腔口腔和和鼻腔鼻腔成男声道:成男声道:长长17 cm/面积面积20 cm2声道声道可看成可看成非均匀截面非均匀截面的的声管声管, 是是时间函数时间函数。口腔:口腔:含含上下唇上下唇、齿齿、齿龈齿龈、腭腭、 舌舌和和小舌小舌等部分。等部分。上腭:上腭:分分硬腭硬腭和和软腭软腭舌:舌:分分舌尖舌尖、舌面舌面和和舌根舌根鼻腔:鼻腔:在口腔上面,靠软腭和小舌将其与口腔隔开在口腔上面,靠软腭和小舌将其与口腔隔开 小舌下垂时,鼻腔与口腔便小舌下垂时,鼻腔与口腔便耦合耦合起来起来 小舌上抬时,口腔与鼻腔小舌上

8、抬时,口腔与鼻腔不相通不相通发音时,口腔和鼻腔都起发音时,口腔和鼻腔都起共鸣共鸣作用。作用。第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程图图2.3声道纵剖面图声道纵剖面图鼻鼻鼻腔鼻腔齿龈齿龈上唇上唇牙齿牙齿下唇下唇下腭骨下腭骨舌骨舌骨甲状软骨甲状软骨气管气管鼻咽鼻咽软腭软腭口腔口腔小舌小舌舌根舌根会咽会咽喉管喉管声带声带环形软骨环形软骨食道食道第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程口腔各器官口腔各器官协同动作协同动作,空气流通过时形成,空气流通过时形成不同阻碍不同阻碍,并产生,并产生振振颤颤,发出,发出不

9、同声音不同声音。咽腔:咽腔:连接连接喉喉和和食管食管与与鼻腔鼻腔和和口腔口腔的一段管子的一段管子讲话时,讲话时,咽腔的形状变化咽腔的形状变化(如图)(如图) ei u e aw咽腔与口腔使声道的咽腔与口腔使声道的形状变化增多形状变化增多,能发出,能发出较多的声音较多的声音。鼻腔:鼻腔:从咽腔一直沿伸到鼻孔,约从咽腔一直沿伸到鼻孔,约10 cm长。长。发鼻化语音发鼻化语音时软腭下垂。时软腭下垂。口腔是声道最重要的部分,其口腔是声道最重要的部分,其大小大小和和形状形状可以通过调整舌、唇、可以通过调整舌、唇、齿和腭来改变。齿和腭来改变。舌是舌是最活跃最活跃的调整的调整发音器官发音器官在发音过程中,肺

10、部与相连的在发音过程中,肺部与相连的 肌肉相当于声道系统的激励源肌肉相当于声道系统的激励源浊音:浊音:声带处于声带处于收紧状态收紧状态时,时, 气流使气流使声带振动声带振动产生的声音产生的声音清音:清音:声带处于声带处于放松状态放松状态时,时, 不伴有声带振动产生的音不伴有声带振动产生的音两种清音:两种清音:摩擦音摩擦音,爆破音爆破音摩擦音:摩擦音:舌舌在声道的某处形成在声道的某处形成狭窄狭窄部位(部位(收紧点收紧点) 气流经过时产生气流经过时产生湍流湍流形成形成噪声型噪声型的声音的声音爆破音:爆破音:松懈声带,用舌和嘴唇松懈声带,用舌和嘴唇关闭声道关闭声道,暂时,暂时阻止气流阻止气流。 气压

11、升高,气压升高,突然放开突然放开舌与嘴唇,气流释放产生舌与嘴唇,气流释放产生短暂冲音短暂冲音 不同的不同的声道收紧点声道收紧点和和声道形状声道形状,形成,形成不同的摩擦音不同的摩擦音 不同的不同的声道闭紧点声道闭紧点和和声道形状声道形状,形成,形成不同的爆破音不同的爆破音第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程肺肺肌力肌力声带声带 鼻腔鼻腔 鼻音鼻音 口腔口腔 口音口音软上腭和小舌软上腭和小舌咽腔咽腔声门声门图图2.5语音产生的机理图语音产生的机理图调音:调音:发声时,需要调整发声时,需要调整声道的形状声道的形状调音运动:调音运动:声道各部位的运动

12、声道各部位的运动调音器官:调音器官:调音涉及声道的各部分器官,调音涉及声道的各部分器官, 包括包括舌、腭、唇舌、腭、唇和和嘴嘴等可以自由活动的部分。等可以自由活动的部分。调音点:调音点:因调音产生的声道固定部位的因调音产生的声道固定部位的狭窄位置狭窄位置不同声道形状有不同不同声道形状有不同声道传递特性声道传递特性,产生不同,产生不同音色音色语音语音共鸣共鸣用使用使能量能量随随频率频率变化,产生各种变化,产生各种差异语音差异语音声道是对发音起着决定性作用的器官声道是对发音起着决定性作用的器官X X光照相光照相可以显示出发音时声道的形状可以显示出发音时声道的形状声学观点:声学观点:声道可拉直而不影

13、响其声学特性,声道可拉直而不影响其声学特性, 用用声管声管(模型模型)分析声道的)分析声道的物理学机理物理学机理第 2章数 字 语 音 处 理 基 础 2.1 发 音 的 生 理 器 官 与 过 程第第 2 2 章数字语音处理基础章数字语音处理基础2.2听觉的生理器官与心理2.2.1听觉系统听觉系统1耳的结构耳的结构图图2.62.6:人的人的听觉系统听觉系统。组成:组成:外耳外耳、中耳中耳和和内耳。内耳。外耳和中耳有外耳和中耳有导音导音的作用,的作用, 合称为合称为导音系导音系;内耳内耳有有感音作用感音作用,称,称感音器感音器。 其感音作用起始于其感音作用起始于蜗神经蜗神经的终端(的终端(螺旋

14、器螺旋器),故内耳的),故内耳的淋巴系淋巴系统统也属于也属于导音系导音系。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.6人的听觉系统人的听觉系统砧骨砧骨锤骨锤骨鼓膜鼓膜外耳道外耳道耳翼耳翼听神经听神经耳蜗耳蜗内耳内耳中耳中耳咽鼓管咽鼓管镫骨镫骨 半规管半规管外耳:外耳:由由耳翼耳翼、外耳道外耳道和和鼓膜鼓膜组成。组成。耳翼:耳翼:有有保护耳孔保护耳孔和和定向作用定向作用。外耳道:外耳道:是一条耳管,声音沿其传至是一条耳管,声音沿其传至鼓膜鼓膜。 有许多有许多共振频率共振频率,封闭时,封闭时最低共振频率最低共振频率约为约为3060 Hz。 共振效

15、应会使声音得到共振效应会使声音得到10 dB左右的放大。左右的放大。成年人的外耳道长约成年人的外耳道长约2.7 cm,直径约,直径约0.7 cm。鼓膜:鼓膜:位于外耳道内端的韧性位于外耳道内端的韧性锥形结构锥形结构, 声音的振动通过鼓膜传到声音的振动通过鼓膜传到内耳内耳。 日常谈话中,鼓膜日常谈话中,鼓膜位移位移约为约为108 cm。外耳的作用:外耳的作用:有对有对声源定位和声放大声源定位和声放大。头部的头部的衍射效应衍射效应也会增大鼓膜处的也会增大鼓膜处的声压声压,系统总放大:系统总放大:20 dB左右。左右。 第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与

16、心 理图图2.72.7:中耳的结构中耳的结构。中耳:中耳:为充气为充气腔体腔体,由,由鼓膜鼓膜将其与将其与外耳外耳隔离,隔离, 通过通过圆形窗圆形窗和和前庭窗前庭窗两个小孔与两个小孔与内耳内耳相通。相通。 通过通过咽鼓管咽鼓管与外界相连,以平衡气压,保护鼓膜。与外界相连,以平衡气压,保护鼓膜。听骨链:听骨链:由由锤骨锤骨、砧骨砧骨和和镫骨镫骨三块三块听小骨听小骨组成,组成, 由由韧带韧带悬挂在中耳的腔体内(悬挂在中耳的腔体内(见图见图2.72.7)。)。锤骨锤骨一端固定地附着在鼓膜上,一端固定地附着在鼓膜上,镫骨镫骨脚端覆盖内耳入口的脚端覆盖内耳入口的前庭窗前庭窗,砧骨砧骨将它们连接起来。将它

17、们连接起来。听骨链将振动传到内耳并放大,听骨链将振动传到内耳并放大, 起到起到杠杆杠杆的作用。的作用。放大放大30倍左右。倍左右。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.7中耳的结构中耳的结构韧带韧带锤骨锤骨鼓膜鼓膜外耳道外耳道半规管半规管砧骨砧骨镫骨镫骨前庭窗膜前庭窗膜中耳中耳咽鼓管咽鼓管听小骨在听小骨在不同声强范围不同声强范围内实现声音的内实现声音的线性线性或或非线性非线性传递。传递。中耳的作用:中耳的作用:通过听小骨进行声阻抗变换,通过听小骨进行声阻抗变换,放大声压放大声压; 保护内耳保护内耳。 内耳内耳(迷路迷路):在颅骨腔内,由:

18、在颅骨腔内,由半规管半规管、前庭窗前庭窗和和耳蜗耳蜗组成。组成。半规管半规管和和前庭窗前庭窗属于属于本体感受器本体感受器,与机体的,与机体的平衡机能平衡机能有关。有关。半规管内的半规管内的感受器感受器能感受能感受旋转变速运动旋转变速运动的刺激,的刺激,前庭窗内的前庭窗内的感受器感受器能感受能感受静止静止的位置和的位置和直线变速运动直线变速运动。耳蜗:耳蜗:是是听觉接受器听觉接受器,把声音经,把声音经机械变换机械变换产生产生神经发放信号神经发放信号。耳蜗耳蜗高约高约2 cm,宽约,宽约1.5 cm,呈,呈螺旋状盘旋螺旋状盘旋2.5 2.75圈,拉直圈,拉直后约后约3 3.2 cm长。长。第 2章

19、数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理耳蜗:耳蜗:由由鼓阶鼓阶、中阶和、中阶和前庭阶前庭阶三个分隔的部分组成。三个分隔的部分组成。图图2.82.8:耳蜗示意图耳蜗示意图 。前庭阶前庭阶和和鼓阶鼓阶在耳蜗的尖端部位相通。在耳蜗的尖端部位相通。中阶中阶内充满高粘度的内充满高粘度的胶状内淋巴液胶状内淋巴液,前庭阶前庭阶和和鼓阶鼓阶内则充满粘度为水两倍的内则充满粘度为水两倍的淋巴液淋巴液。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理前庭阶前庭阶中阶中阶鼓阶鼓阶前庭阶前庭阶中阶中阶鼓阶鼓阶骨螺旋板蜗孔骨螺旋板蜗孔覆膜覆膜中

20、阶中阶基底膜基底膜耳蜗神经耳蜗神经骨质层骨质层前庭阶前庭阶鼓阶鼓阶(a) 耳蜗(通过蜗轴的剖面)耳蜗(通过蜗轴的剖面) (b) 耳蜗横截面耳蜗横截面图图2.8耳蜗示意图耳蜗示意图中阶的底膜称为中阶的底膜称为基底膜基底膜,基底膜基底膜之上是之上是柯蒂氏器官柯蒂氏器官,由,由耳蜗覆膜耳蜗覆膜、外毛细胞外毛细胞(共(共3列,列,约约20000个)以及个)以及内毛细胞内毛细胞(共(共1列,约列,约3500个)构成。个)构成。图图2.92.9:柯蒂氏器官柯蒂氏器官示意图。示意图。柯蒂氏器官:柯蒂氏器官:是一个是一个传感装置传感装置。毛细胞毛细胞上部的上部的微绒毛微绒毛感受耳蜗内感受耳蜗内流体速度流体速度

21、的的变化变化,从而引起,从而引起毛毛细胞细胞膜两边膜两边电位电位的的变化变化,可造成,可造成听觉神经听觉神经的的发放发放或或抑制抑制。内耳的作用:内耳的作用:感受声音。感受声音。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.9柯蒂氏器官示意图柯蒂氏器官示意图外毛细胞外毛细胞内毛细胞内毛细胞血管血管纤毛纤毛 覆膜覆膜基底膜基底膜 神经纤维神经纤维2听觉的形成听觉的形成听觉系统的两个听觉系统的两个重要特性:重要特性: 听觉掩蔽效应听觉掩蔽效应; 耳蜗对于声信号的耳蜗对于声信号的时频分析特性(见时频分析特性(见图图2.102.10 )。耳蜗耳蜗的的时频

22、分析特性:时频分析特性:声音使镫骨运动,使耳蜗内流体声音使镫骨运动,使耳蜗内流体压强变化压强变化,引起行波沿基底膜,引起行波沿基底膜的的传播传播。声频不同声频不同,产生的,产生的行波不同行波不同,峰值,峰值 出现在基底膜的出现在基底膜的位置不同位置不同。 为为对数型分布对数型分布。频率低频率低,峰值出现在基底膜的,峰值出现在基底膜的顶附近顶附近;频率高频率高,峰值出现在基底膜的,峰值出现在基底膜的底附近底附近。振动强度增加,基底膜运动幅度加大,振动强度增加,基底膜运动幅度加大,耳蜗:耳蜗:有有频谱分析频谱分析作用。作用。 第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器

23、官 与 心 理- 16 -图图2.10基底膜的频率响应分布图基底膜的频率响应分布图1943顶部顶部7291051431872382973654455366437669081073126414851741203723802777323737704386510059271915816774144691247810759927479916883基部基部基底膜上的基底膜上的绒毛细胞绒毛细胞的的特性:特性:振动使基底膜和耳蜗覆膜之间的振动使基底膜和耳蜗覆膜之间的毛细胞毛细胞上的上的绒毛绒毛发生发生弯曲弯曲。 绒毛绒毛弯向一边弯向一边,引起毛细胞的,引起毛细胞的去极化去极化,加强,加强传入传入神经的神经的

24、作用作用; 绒毛绒毛弯向另一边弯向另一边,引起毛细胞的,引起毛细胞的超极超极化,导致抑化,导致抑制效应制效应。基底膜上不同部位的毛细胞具有不同的电学和力学特性。基底膜上不同部位的毛细胞具有不同的电学和力学特性。 在在基部基部,基底膜,基底膜窄窄而而劲度强劲度强,毛细胞及其绒毛,毛细胞及其绒毛短短而而有劲度有劲度; 在在顶部顶部,基底膜,基底膜宽宽而而柔和柔和,毛细胞及其绒毛较,毛细胞及其绒毛较长长而而柔和柔和。这种差异是基底膜有这种差异是基底膜有频率选择性频率选择性和和对数分布性对数分布性的重要因素。的重要因素。 人的听觉范围:人的听觉范围:20 Hz 20 kHz,0 130 dB的声音信号

25、。的声音信号。听觉范围外的听觉范围外的信号分量信号分量可忽略掉,以可忽略掉,以节省处理成本节省处理成本。人耳的人耳的感觉不是绝对的感觉不是绝对的,随着信号特性的不同而不同。,随着信号特性的不同而不同。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理发音发音和听音及和听音及理解声音理解声音都牵涉到人的都牵涉到人的神经活动神经活动。发音时,发音时,将将观念观念转换成转换成单词单词和和句子句子并发出并发出指令指令,控制发音器官,控制发音器官使其作使其作适当运动适当运动;听音时,听音时,柯蒂氏器官发出柯蒂氏器官发出脉冲脉冲,经,经神经系统神经系统处理,使处理,使大

26、脑感知大脑感知这些这些编码编码的神经的神经信号信号,转换成,转换成词汇词汇并得到并得到理解理解。 神经系统的基元是神经系统的基元是神经元神经元。神经元神经元是一种是一种专职细胞专职细胞;有;有细胞体细胞体和和细胞核细胞核。细胞体上伸展出的树形支,称细胞体上伸展出的树形支,称轴突轴突或或神经纤维神经纤维。最小的分支的末端称为最小的分支的末端称为神经末梢神经末梢。由突触实现神经元间的联系。由突触实现神经元间的联系。柯蒂氏器官上的柯蒂氏器官上的纤毛细胞纤毛细胞是一种是一种感受细胞感受细胞, 将接受的感觉信息转成将接受的感觉信息转成电化学脉冲电化学脉冲(见图(见图2.112.11), 传达给神经元的传

27、达给神经元的突触突触,并由神经系统处理。,并由神经系统处理。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.11神经系统的神经系统的电化学脉冲的波形图电化学脉冲的波形图U/mV100 0 t/ms 1ms神经受激反应的规律:神经受激反应的规律: (1)(1) 刺激的强弱。刺激的强弱。超过超过门限值门限值的刺激才产生的刺激才产生脉冲脉冲。脉冲波形并不脉冲波形并不携带携带有刺激的有刺激的强度信息强度信息。(2)(2) 刺激的时间。刺激的时间。存在存在“绝对不应期绝对不应期”和和“相对不应期相对不应期”。 绝对不应期:绝对不应期:约约1 2 ms,此期间

28、的刺激,此期间的刺激不产生不产生反应脉冲。反应脉冲。 相对不应期:相对不应期:约约10 ms,此期间需要强刺激才,此期间需要强刺激才产生产生反应脉冲。反应脉冲。(3)(3)刺激的强度反应在刺激的强度反应在脉冲的个数上脉冲的个数上,但也,但也有限制有限制。 刺激超过门限值并持续刺激超过门限值并持续10 ms以上,神经元将不断产生脉冲。以上,神经元将不断产生脉冲。 最高产生最高产生1000个个脉冲脉冲/s左右,再增大刺激强度不起作用;左右,再增大刺激强度不起作用;(4)(4) 脉冲沿神经纤维传输的脉冲沿神经纤维传输的速度速度取决于纤维的取决于纤维的粗细粗细。 直径越大,传输速度越快。直径越大,传输

29、速度越快。 也可利用也可利用朗飞节,跳跃传输。此时速度可高达朗飞节,跳跃传输。此时速度可高达100 m/s左右。左右。 朗飞节朗飞节是大的神经纤维上的是大的神经纤维上的脂肪节脂肪节。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理(5)(5) 神经元之间的神经元之间的传输机制传输机制主要主要是化学的是化学的。 是一个脉冲刺激另一个神经元的是一个脉冲刺激另一个神经元的电化学反应电化学反应,并产生脉冲,并产生脉冲, 然后在该然后在该神经元轴突神经元轴突内按上述方法传输。内按上述方法传输。(6)(6) 神经纤维有神经纤维有兴奋兴奋和和抑制两种状态抑制两种状态。

30、在兴奋状态时,神经元之间的传送是在兴奋状态时,神经元之间的传送是无阻的无阻的; 抑制状态时,受到抑制而抑制状态时,受到抑制而不能不能传送脉冲。传送脉冲。 若某种神经元同时受到好几个兴奋状态的和抑制状态的联合若某种神经元同时受到好几个兴奋状态的和抑制状态的联合 刺激,则由其刺激,则由其综合效应综合效应来决定该来决定该神经元的反应神经元的反应。 第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理 听觉产生过程听觉产生过程 声波声波 骨膜振动骨膜振动 听小骨传递听小骨传递 耳蜗基底膜振动耳蜗基底膜振动 产生神经脉冲产生神经脉冲语音的产生和理解:语音的产生和理解:与

31、与神经系统神经系统和和大脑大脑有关,是有关,是高级活动高级活动。搞清大脑搞清大脑产生产生和和理解理解语音的语音的机理机理,对语音技术有,对语音技术有极重要意义极重要意义。特别是对特别是对语音合成语音合成与与语音识别语音识别两个分支。两个分支。例,语音合成:例,语音合成:目前,按规则合成只能从寻找各种语言的规则入手,尽可能得目前,按规则合成只能从寻找各种语言的规则入手,尽可能得出较好的人工语言。出较好的人工语言。如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自然的语音合成。然的语音合成。例,语音识别:例,语音识别:目前,只能从语音信号出

32、发,用目前,只能从语音信号出发,用“隐过程隐过程”(如隐马尔可夫模(如隐马尔可夫模型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处理模型。不能达到理想的识别和理解效果。理模型。不能达到理想的识别和理解效果。这种方法与大脑用的方法并不一致。这种方法与大脑用的方法并不一致。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理2.2.2语音的听觉心理语音的听觉心理听觉系统极灵敏。听觉系统极灵敏。能感觉到接近能感觉到接近空气分子热运动空气分子热运动产生的声压。产生的声压。两耳的传递速度不同。两耳的传递速度不同

33、。声音从右耳传至左大脑的速度比较快;声音从右耳传至左大脑的速度比较快;声音从左耳传至右大脑的速度比较慢。声音从左耳传至右大脑的速度比较慢。两耳辨音性能有所不同。两耳辨音性能有所不同。 辨听辨听元音元音的能力大体一致;的能力大体一致; 辨听辨听辅音辅音或或音调音调,右耳比左耳强一些。,右耳比左耳强一些。正常人正常人听觉范围听觉范围:20 Hz 16 kHz; 年轻人可以听到年轻人可以听到20 kHz; 老年人可听频率降到老年人可听频率降到10 kHz左右。左右。 听觉器官对听觉器官对音高音高、音强音强、声波的、声波的动态频谱动态频谱有分析感知能力。有分析感知能力。人耳对声音的人耳对声音的强度强度

34、和和主观感觉主观感觉是从是从响度响度和和音调音调体现出来的体现出来的 第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理 1. 人耳的听阈和响度人耳的听阈和响度在物理上,在物理上,客观测量客观测量声音强弱的单位:声音强弱的单位: dyn/cm2(声压声压,达因每平方厘米达因每平方厘米),或),或W/cm2(声强声强)。)。在心理上,在心理上,主观测量主观测量声音强弱的单位:声音强弱的单位: 方方(phon)()(响度级响度级),或),或宋宋(sone)()(响度响度)。)。客观和主观两种声音强弱的计量单位是完全不同的两种概念,客观和主观两种声音强弱的计量单位

35、是完全不同的两种概念,它们之间又有一定关系。它们之间又有一定关系。国际协议规定,国际协议规定, 0 dB声强级声强级的的1 kHz纯音的纯音的响度级响度级定义为定义为 0 方方, n dB声强级声强级的的1 kHz纯音的纯音的响度级响度级定义为定义为 n 方方。语音是语音是复合音复合音,含丰富,含丰富谐波成分谐波成分。人耳对不同纯音,有不同的听辨灵敏度。人耳对不同纯音,有不同的听辨灵敏度。 第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理听阈:听阈:当声音的强度小到人耳当声音的强度小到人耳刚刚可听见刚刚可听见时的声强。时的声强。1 kHz纯音,听阈为纯音,

36、听阈为1016W/cm2声强声强(0 dB声强度级声强度级);); 0 dB声强级是非常小的单位,仅使鼓膜声强级是非常小的单位,仅使鼓膜移动移动约约109 cm。痛阈:痛阈:当声音的强度大到人耳当声音的强度大到人耳感到疼痛感到疼痛时的声强。时的声强。1 kHz纯音,纯音,痛阈痛阈约为约为104 W/cm2声强声强(120 dB声强度级声强度级);); 120 dB使鼓膜的使鼓膜的位移位移约为约为103cm。 “听阈听阈频率频率”和和 “痛阈痛阈频率频率”曲线曲线 表征其变化表征其变化特性(见图特性(见图2.122.12)两曲线间为两曲线间为听觉范围听觉范围。听觉范围听觉范围相当宽相当宽,达,达

37、1012量级以上。量级以上。例:例:1 kHz,10 dB声强级的声音,声强级的声音, 响度级为响度级为10方;与方;与200 Hz,30dB 声强级的声音,感觉响度相同。声强级的声音,感觉响度相同。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.12等响度曲线与声强等响度曲线与声强/声强级的关系声强级的关系声强声强/Wcm2 10-410-610-810-1010-1210-1410-16声强级声强级/dB120100 80 60 40 20 020 50 100 200 500 1k 2k 5k 10k 频率频率/Hz120方方11010090

38、80706050403020100方方响度级响度级不是不是响度响度。响度级响度级是是心理学家心理学家用来表示用来表示“渐强渐强”的的标度标度。单位是。单位是方方)例:例:响度级响度级为为50方比方比40方的声音方的声音响响一些,一些, 响度级响度级为为40方比方比20方的声音方的声音响响一些,响多少倍未知。一些,响多少倍未知。响度响度是是数量的表示数量的表示(单位是(单位是宋宋)。)。例:例:2 宋的响度使人感到比宋的响度使人感到比 1 宋的响度响了宋的响度响了 2 倍。倍。规定:规定:1 宋响度宋响度为为1 kHz纯音在其纯音在其 响度级为响度级为40 dB(声强(声强1012 W/cm2)

39、 时的响度。时的响度。图图2.132.13:“响度响度级响度响度级”曲线。曲线。听觉的听觉的响度响度与与响度级响度级不是线性的。不是线性的。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.13“响度响度-响度级响度级”曲线图曲线图120 10080604020 00.01 0.1 1 10 100响度宋响度宋响响度度级级方方 2. 音调音调音调:音调:是听觉分辨是听觉分辨声音高低声音高低时用于描述这种感觉的一种特性。时用于描述这种感觉的一种特性。客观上,客观上,用频率用频率表示声音的表示声音的音调音调,其单位是,其单位是Hz,主观上,感觉音调的单位

40、采用主观上,感觉音调的单位采用美美(mel)标度。)标度。这是两个概念上的这是两个概念上的不同不同、既、既有联系有联系的计量单位的计量单位 感音范围:感音范围:20Hz20 kHz,约,约 1000 倍频程倍频程,9 10 个八度音。个八度音。规定:规定:音调的测量以音调的测量以40 dB声强为声强为基准基准,由主观感觉定标由主观感觉定标, 且且 1 kHz 纯音的音调定为纯音的音调定为1 000美美。例:例:让听者听让听者听两个两个40 dB声强级的纯音,声强级的纯音,一纯音一纯音频率频率固定固定, 调节调节另一个纯音的频率使其感觉音调高另一个纯音的频率使其感觉音调高 1 倍倍, 标定标定这

41、两个同声强声音的音调差为这两个同声强声音的音调差为 1 倍倍。实验表明:实验表明:音调音调与与频率频率是是非线性非线性的,与的,与声强声强及及波形波形有关。有关。例:例:1 kHz、1000美美纯音的倍音调是纯音的倍音调是2000美美(频率(频率4 kHz);); 其半音调为其半音调为500美美(频率(频率400 Hz)。)。 第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.142.14:“音调音调-频率频率”曲线。曲线。音调和频率音调和频率 f 的关系可以近似地表示为的关系可以近似地表示为 人耳可人耳可分辨音调分辨音调约约1400个个, 可可分辨

42、响度分辨响度约约280个个。若若声强声强和和频率频率皆变化,人皆变化,人可分辨纯音可分辨纯音达达30 40万个万个。第 2章数 字 语 音 处 理 基 础 2.2 听 觉 的 生 理 器 官 与 心 理图图2.14“音调音调-频率频率”曲线曲线30002500200015001000 500 020 50 100 200 500 1k 2k 5k 10k 频率频率/Hz主主观观感感觉觉的的音音调调美美第第 2 2 章数字语音处理基础章数字语音处理基础2.3语音和语言语言语言是从言语历史中概括总结出来的是从言语历史中概括总结出来的规律性规律性的的符号系统符号系统语言语言是进行是进行思维思维、交际

43、交际的形式的形式语音语音是是声音声音、语言语言和和意义意义的的结合体结合体声音声音是语音的是语音的物质形式物质形式;语音语音是语言的是语言的物质外壳物质外壳、信息载体信息载体但是,但是,声音声音和和意义意义间间无必然无必然联系,其联系,其意义意义是是约定俗成的约定俗成的语音语音由一串音组成语言的声音,音间由一串音组成语言的声音,音间过渡过渡代表信息的符号,代表信息的符号,音(符号)的排列由音(符号)的排列由语音规则语音规则约束。约束。语音的研究:语音的研究:包括包括语言学语言学、语音学语音学语言学:语言学:语音中各个音的语音中各个音的排列规则排列规则及其及其含意含意的研究的研究语音学:语音学:

44、语音中各个音的语音中各个音的物理特征物理特征和和分类分类的研究的研究第 2章数 字 语 音 处 理 基 础 2.3 语 音 和 语 言说话过程可分说话过程可分五个阶段:五个阶段:想说阶段想说阶段、说出阶段说出阶段、传送阶段传送阶段、接接收阶段收阶段、理解阶段理解阶段1 1、想说阶段:、想说阶段:(与大脑中枢的活动有关) 大脑决策产生大脑决策产生说话动机说话动机 讲话神经中枢讲话神经中枢选单词选单词、短语,短语,按按规则组合规则组合表达表达内容内容和和情感情感2 2、说出阶段:、说出阶段:(与发音器官的活动有关) 大脑中枢决策,向发音器官大脑中枢决策,向发音器官发指令发指令,使舌、唇、颚、声带、

45、,使舌、唇、颚、声带、肺等肺等协调动作协调动作,发出声音,发出声音 大脑也发指令给大脑也发指令给其它器官其它器官,产生各种动作来,产生各种动作来配合配合 根据听觉系统接收的反馈语音信息,来根据听觉系统接收的反馈语音信息,来帮助修改语音帮助修改语音。3 3、传送阶段:、传送阶段:(传送声波信息的物理过程) 声波以声波以空气为媒介空气为媒介传送到听者的耳中传送到听者的耳中第 2章数 字 语 音 处 理 基 础 2.3 语 音 和 语 言4、接收阶段:接收阶段:(与听觉系统活动有关) 外耳收集外耳收集声波声波信息,经中耳信息,经中耳放大放大,传到内耳,传到内耳 经内耳基底膜经内耳基底膜振动振动,激发

46、柯蒂氏器官内的神经元产生,激发柯蒂氏器官内的神经元产生脉冲脉冲 将信息以脉冲的形式将信息以脉冲的形式传送给大脑传送给大脑5、理解阶段:理解阶段:(至今尚未完全了解,机理不很清楚) 听觉神经中枢收到脉冲信息,听觉神经中枢收到脉冲信息,辨认辨认话者及所说信息话者及所说信息说话过程相当复杂,有说话过程相当复杂,有心理心理、生理生理、物理物理及及个人个人和和社会因素社会因素个人因素:个人因素:话者话者口音口音、用词造句特色用词造句特色 听者的听者的听力听力、理解力理解力。社会因素:社会因素:话者、听者的话者、听者的社会基础社会基础、环境环境等等语言要素:语言要素:分语言的分语言的语素语素、词词、短语短

47、语和和句子句子等不同层次等不同层次 及及词法词法、句法句法、文脉文脉等等语法语法和和语义语义内容等。内容等。句法的最小单位是句法的最小单位是单词单词,词法的最小单位是,词法的最小单位是音节音节。不同不同语言语言有不同有不同语言规则语言规则第 2章数 字 语 音 处 理 基 础 2.3 语 音 和 语 言语音学研究语音学研究语音产生语音产生、语音感知语音感知等,音的等,音的特征特征和和分类分类等问题等问题语音学语音学与与语音信号处理语音信号处理学科有学科有紧密联系紧密联系。说话交流过程分为说话交流过程分为“发音发音传递传递感知感知”三个阶段三个阶段现代语音学分支:现代语音学分支:发音语音学发音语

48、音学、声学语音学声学语音学、听觉语音学听觉语音学发音语音学:发音语音学:从从生理的角度生理的角度研究语音研究语音(已相当成熟) 直接观察发音器官的动作或借助仪器来研究直接观察发音器官的动作或借助仪器来研究声学语音学:声学语音学:研究语音传递的研究语音传递的声学特性声学特性 用用声学声学和和非平稳信号分析非平稳信号分析理论理论解释解释各种各种语音语音现象现象 语音的声学物理性质及与发音器官之间的关系。语音的声学物理性质及与发音器官之间的关系。 产生产生声音模拟声音模拟、语音合成语音合成和和语音识别语音识别等研究方向。等研究方向。听觉语音学和心理语言学:听觉语音学和心理语言学:(较新学科,处于探索

49、阶段) 探索大脑如何进行语音的发出和接收,探索大脑如何进行语音的发出和接收, 语言信息以什么形式在大脑的什么部位存储等语言信息以什么形式在大脑的什么部位存储等第 2章数 字 语 音 处 理 基 础 2.3 语 音 和 语 言第第 2 2 章数字语音处理基础章数字语音处理基础2.4语音学基础及汉语语音学 2.4.1声波的物理描述声波的物理描述声波从声源向四面八方传播声波从声源向四面八方传播声波的频率:声波的频率:单位时间内声波的单位时间内声波的周期数周期数声波的波长:声波的波长:声波中两个波峰之间相隔的声波中两个波峰之间相隔的空间距离空间距离 波长波长= =传播速度传播速度/ /频率频率频率高波

50、长短频率高波长短;频率低波长长频率低波长长声波有声波有频度频度和和振幅振幅两个特点。两个特点。声频声频与与音调音调有关,有关,振幅振幅与与响度响度有关。有关。声频高,声音就高(音调高);声频低,声音就低(音调低)声频高,声音就高(音调高);声频低,声音就低(音调低)第2章数字语音处理基础 2.4语音学基础及汉语语音学声音分:声音分:复合音复合音、纯音纯音纯音:纯音:仅有仅有基音基音,没有,没有倍音倍音倍音:倍音:频率是基音频率的频率是基音频率的整倍数整倍数的的声音成分声音成分复合音:复合音:除纯音外的声音除纯音外的声音 一般的声音是包含了复合声波的声音一般的声音是包含了复合声波的声音人类发出的

51、人类发出的元音元音是是复合音复合音大部分声音并非只有一个基频大部分声音并非只有一个基频通常,基频的能量最高,力度最强,通常,基频的能量最高,力度最强, 其它倍音的能量逐渐减低,力度逐渐减弱其它倍音的能量逐渐减低,力度逐渐减弱不同声音的区别是不同声音的区别是和弦和弦不同(不同不同(不同乐器乐器的的音色音色因和弦不同)因和弦不同)声音的基音与倍音共同组成这个声音的和弦声音的基音与倍音共同组成这个声音的和弦频率最低的和弦是频率最低的和弦是第一和弦第一和弦,其它和弦依次是,其它和弦依次是第二和弦第二和弦、第三第三和弦和弦等等等等第2章数字语音处理基础 2.4语音学基础及汉语语音学声音的物理属性:声音的

52、物理属性:音色音色、音调音调、音强音强、音长音长音色:音色:也称作也称作音质音质,一种声音,一种声音区别于区别于其它声音的基本特征其它声音的基本特征 发音体(音带)发音体(音带)振动振动与与不振动不振动,发音的音色不同,发音的音色不同 用相同发音器官,用相同发音器官,送气送气与与不送气不送气方式,发音的音色不同方式,发音的音色不同 声道的声道的形状形状和和尺寸尺寸不同,发的音的音色不同不同,发的音的音色不同音调:音调:声音的高低,汉语语音学中称为声音的高低,汉语语音学中称为音高音高,取决于声频,取决于声频 声频与发音体的声频与发音体的长短长短、厚薄厚薄、松紧程度松紧程度有关有关 语音的声调由语

53、音的语音的声调由语音的基频基频决定决定音强:音强:声音的声音的强弱强弱,由声波的,由声波的振幅振幅(声功率声功率)决定)决定音长:音长:声音的声音的长短长短,取决于发音的持续时间的长短,取决于发音的持续时间的长短第2章数字语音处理基础 2.4语音学基础及汉语语音学2.4.2语音的声学特性语音的声学特性音节:音节:一次发出,有一个响亮中心,被明显感觉的一次发出,有一个响亮中心,被明显感觉的语音片段语音片段 音节音节由由一个音素一个音素或或几个音素几个音素构成构成音素:音素:是语音的是语音的最小单位,最小单位,分分元音元音、辅音辅音,两种音素,两种音素元音:元音:声带声带振动振动的气流经声道辐射,

54、不受阻碍发出的的气流经声道辐射,不受阻碍发出的乐音乐音辅音:辅音:呼出的气流,由声道的呼出的气流,由声道的部分封闭部分封闭或或受阻受阻,产生的,产生的声音声音 清辅音清辅音(清音清音):声带):声带不振动不振动发出的辅音发出的辅音 浊辅音浊辅音(浊音浊音):声带):声带振动振动发出的辅音发出的辅音 浊音浊音是是乐音乐音和和清音清音的混合音的混合音 形成阻碍的发音部位和发音方法不同,发出的辅音不同形成阻碍的发音部位和发音方法不同,发出的辅音不同半元音:半元音:发音时声道基本畅通,某处比较狭窄,引起轻微的摩发音时声道基本畅通,某处比较狭窄,引起轻微的摩擦发出的声音擦发出的声音元音:元音:音节的音节

55、的主体主体,时长时长和和能量能量在音节中占主要部分在音节中占主要部分辅音:辅音:在音节的在音节的前端前端或或后端后端或或前后两端前后两端,时长时长和和能量能量很小很小第2章数字语音处理基础 2.4语音学基础及汉语语音学元音音色:元音音色:主要由舌的主要由舌的形状形状、舌位舌位、口形口形等决定等决定舌位高度、前后位置与音素关系见舌位高度、前后位置与音素关系见图图2.222.22 舌位高度:舌位高度:分分高高、中中、低低 舌位前后:舌位前后:分分前前、中中、后后 有有9 9种种基本组合,加上口唇开放程度、咽宽度,可发基本组合,加上口唇开放程度、咽宽度,可发十多个十多个不同的单元音不同的单元音 第2

56、章数字语音处理基础 2.4语音学基础及汉语语音学声道的模拟:声道的模拟:非均匀截面的非均匀截面的声管声管,发音时起,发音时起共鸣器共鸣器作用作用共振峰:共振峰:元音激励声道时,引起元音激励声道时,引起共振共振,产生的一组,产生的一组共振频率共振频率 称为称为共振峰频率共振峰频率(共振峰共振峰) 共振峰是区别元音的重要参数,包括其共振峰是区别元音的重要参数,包括其位置位置和和频带宽度频带宽度精确描述语音,应该用尽可能多的共振峰精确描述语音,应该用尽可能多的共振峰工程中,常用工程中,常用前三个共振峰前三个共振峰参数参数 第一共振峰第一共振峰F1、第二共振峰第二共振峰F2、第三共振峰第三共振峰F3元

57、音的共振峰特性与元音的共振峰特性与发音机制发音机制有关有关F1与舌位高低有关,舌位高与舌位高低有关,舌位高F1低;舌位低低;舌位低F1高高舌位越低,嘴张得越大(开口度大);舌位越高开口度越小舌位越低,嘴张得越大(开口度大);舌位越高开口度越小F2与舌位前后密切相关,舌位靠前与舌位前后密切相关,舌位靠前F2高,舌位靠后高,舌位靠后F2低低 前元音前元音i的舌位靠前,的舌位靠前,F2达达2000 Hz 后元音后元音u的舌位靠后,的舌位靠后,F2只有只有500 Hz第2章数字语音处理基础 2.4语音学基础及汉语语音学F1和和F2和嘴唇的圆展程度也有关系,和嘴唇的圆展程度也有关系, 如圆唇可使如圆唇可

58、使F2降低等。降低等。F3与舌位有关,并不密切,与舌位有关,并不密切, 但受舌尖活动的影响,舌尖抬高卷起时,但受舌尖活动的影响,舌尖抬高卷起时,F3就明显下降就明显下降图图2.23:舌位前后、唇形圆展和开口度大小对舌位前后、唇形圆展和开口度大小对F1和和F2 的影响情的影响情况。况。 第2章数字语音处理基础 2.4语音学基础及汉语语音学 F2 F1后后 低圆低圆 低小(高)低小(高)前前 高展高大(低)高展高大(低)舌位舌位(开口度开口度)舌位前后舌位前后唇形圆唇形圆度度图图2.23舌位、唇形和开口度对舌位、唇形和开口度对F1和和F2的影响的影响成年女子成年女子和和儿童儿童的的基频基频高于高于

59、成年男子成年男子。区分语音是男声还女声,是成人声音还是儿童声音,更重要的区分语音是男声还女声,是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。因素是共振峰频率的高低。表表2.2:10个英语单元音前个英语单元音前3个共振峰频率的平均值。个共振峰频率的平均值。成年女性和男性的共振峰频率有明显的差别(约高成年女性和男性的共振峰频率有明显的差别(约高25%)第2章数字语音处理基础 2.4语音学基础及汉语语音学表表2.210个英个英语单元音前元音前3个共振峰个共振峰频率的平均率的平均值/Hz元音元音ii:eauu:F1男男270390530660730570440300640490女女31043

60、0610860850590470370760500F2男男22901990184017201090840102087011901350女女27902480233020501220920116095014001640F3男男3010255024802410244024102240224023901690女女3310307029902810281027102610267027801960复合元音:复合元音:由由两个两个或或三个元音三个元音组合在一起的元音。组合在一起的元音。 复合元音分:复合元音分:真性复合元音真性复合元音和和假性复合元音假性复合元音。 真性复合元音真性复合元音的各单元音有一很长的

61、稳定段,过渡段很短;的各单元音有一很长的稳定段,过渡段很短; 假性复合元音假性复合元音的单元音很少有稳定段,的单元音很少有稳定段,共振峰共振峰图形是图形是 一个一个滑动滑动和和平滑过渡平滑过渡的过程。的过程。 三复合元音三复合元音很少有真性的很少有真性的 元音鼻化:元音鼻化:是是鼻鼻与与口耦合口耦合作用产生的,作用产生的, 是该是该元音元音与与鼻辅音鼻辅音邻近而发生的现象。邻近而发生的现象。元音鼻化作用将在该元音鼻化作用将在该元音共振峰元音共振峰特性中引起特性中引起两对极零点两对极零点, 一对一对极点极点在在 290 Hz 左右,左右,零点零点在在 295 Hz 左右;左右; 一对一对极点极点

62、在在 2240 Hz 左右,左右,零点零点在在 2340 Hz 左右。左右。 每对极零点分离得越远鼻音越重。每对极零点分离得越远鼻音越重。第2章数字语音处理基础 2.4语音学基础及汉语语音学产生元音有三个条件:产生元音有三个条件: 声道受到声道受到声带振动声带振动的激励引起共振;的激励引起共振; 在语音流的持续期,声道在语音流的持续期,声道不发生极端的狭窄不发生极端的狭窄,并维持较稳定,并维持较稳定的形状;的形状; 和鼻腔不发生耦合和鼻腔不发生耦合,声音只从口腔辐射。,声音只从口腔辐射。这三个条件中,只要缺少其中之一,该语音就是这三个条件中,只要缺少其中之一,该语音就是辅音辅音。辅音:辅音:是

63、把是把呼气流呼气流在声道的在声道的某一位置某一位置用适当的方法进行用适当的方法进行阻碍阻碍而而产生的。产生的。 辅音辅音没有明确的没有明确的共振峰结构共振峰结构。 辅音发音时,辅音发音时,阻碍阻碍的位置叫的位置叫调音点调音点, 阻碍阻碍的方法叫的方法叫调音方式调音方式。 根据根据调音方式调音方式等不同可以把等不同可以把辅音辅音分成分成几类几类。 第2章数字语音处理基础 2.4语音学基础及汉语语音学一般分为一般分为 7 类辅音:类辅音:塞音、摩擦音、塞擦音、鼻音、塞音、摩擦音、塞擦音、鼻音、 边音、颤音、边音、颤音、通音。通音。(1) 塞音塞音(爆破音、破裂音爆破音、破裂音):把把口腔口腔和和鼻

64、腔鼻腔完全完全封闭封闭, 然后然后急快解除急快解除口腔口腔封闭封闭。 例:例:普通话拼音的普通话拼音的p, t, k, b, d, g等。等。(2) 摩擦音:摩擦音:持阻阶段阻碍处并持阻阶段阻碍处并不完全闭塞不完全闭塞,但将声道变窄到气,但将声道变窄到气 流产生(流产生(湍流湍流)摩擦噪音摩擦噪音的程度。的程度。 例:例:普通话拼音的普通话拼音的f, s, sh, x, h等。摩擦音可以等。摩擦音可以任意延长任意延长。(3) 塞擦音:成阻阶段塞擦音:成阻阶段阻碍处阻碍处闭塞闭塞,无气流通过;,无气流通过;除阻阶段除阻阶段阻碍阻碍 略微放松略微放松,让气流挤出去产生摩擦,形成,让气流挤出去产生摩

65、擦,形成先塞后擦先塞后擦的音。的音。 例:例:普通话拼音的普通话拼音的z, zh等。等。(4) 鼻音:封闭口腔鼻音:封闭口腔,但同时软腭下降,但同时软腭下降,开放鼻腔开放鼻腔通路,让气流通路,让气流 从鼻腔出去而形成的音。从鼻腔出去而形成的音。 例:例:普通话拼音的普通话拼音的 m, n 等。鼻音可以等。鼻音可以任意延长任意延长。第2章数字语音处理基础 2.4语音学基础及汉语语音学(5) 边音:舌尖边音:舌尖形成阻碍形成阻碍不让气流通过不让气流通过,但舌尖,但舌尖两边有空隙两边有空隙能让能让气流通过,即封闭口腔中央部分开放两侧通路而形成的音。气流通过,即封闭口腔中央部分开放两侧通路而形成的音。

66、 例:例:普通话拼音的普通话拼音的 l 。(6) 颤音:颤音:气流通过声道时使发音器官气流通过声道时使发音器官调音点调音点受气流冲击受气流冲击 而产生而产生颤动颤动,而发出,而发出颤音颤音。 例:例:拉萨语拉萨语 ra(羊)中的(羊)中的 r。(7) 通音通音(半元音半元音或或半辅音半辅音):是是无擦通音无擦通音。 使使声道稍微变窄声道稍微变窄,但是窄到不至于发出摩擦噪音的程度,但是窄到不至于发出摩擦噪音的程度,然后逐渐向然后逐渐向后续元音后续元音的的过渡调音过渡调音而产生的;而产生的; 或从或从先行元音逐渐变窄先行元音逐渐变窄,但窄到气流通过时只产生极轻微,但窄到气流通过时只产生极轻微的摩擦

67、,甚至可能没有摩擦,这样的调音方式产生。的摩擦,甚至可能没有摩擦,这样的调音方式产生。通音一般都是通音一般都是浊音浊音,性质,性质接近元音接近元音。 例:例:普通话拼音的普通话拼音的 w, y。第2章数字语音处理基础 2.4语音学基础及汉语语音学辅音分:辅音分:浊辅音浊辅音(声带(声带振动振动)和)和清辅音清辅音(声带(声带无振动无振动)。)。辅音分:辅音分:送气辅音送气辅音和和不送气辅音不送气辅音。 根据根据辅音除阻后辅音除阻后是否紧跟着是否紧跟着送出一股气流送出一股气流分类。分类。 例:例:普通话拼音的普通话拼音的p, t, k是是送气辅音送气辅音,b, d, g是是不送气辅音不送气辅音。

68、各音节元音段的各音节元音段的基音频率都随时间变化基音频率都随时间变化。声调:声调:由由基音频率基音频率的变化产生,其变化轨迹称为的变化产生,其变化轨迹称为声调轨迹声调轨迹。声调声调反映语音的反映语音的韵律韵律,在,在汉语中汉语中声调声调有辨意有辨意作用作用 重音:重音:是在语流中,发音较重的音节。是在语流中,发音较重的音节。重音一般分为重音一般分为词重音词重音和和语句重音语句重音。词重音:词重音:以词为考查对象,音位学把词重音划分为以词为考查对象,音位学把词重音划分为正常重音正常重音、 对比重音对比重音和和弱重音弱重音。语句重音:语句重音:是指由于是指由于句子语法结构句子语法结构、逻辑语义逻辑

69、语义或或心理情感心理情感表达表达 的需要而产生的句子中的的需要而产生的句子中的重读音重读音。语句重音语句重音一般分为一般分为语音重音语音重音、逻辑重音逻辑重音、心理重音心理重音。第2章数字语音处理基础 2.4语音学基础及汉语语音学把握词重音特征对了解语音中蕴涵的情感和情绪信息极重要。把握词重音特征对了解语音中蕴涵的情感和情绪信息极重要。词重音的情感效果往往同词义本身有较强的联系。词重音的情感效果往往同词义本身有较强的联系。重音的声学特征:重音的声学特征:主要表现在主要表现在时长时长、音高音高与与音强音强及及三者结合三者结合。不同语言不同语言的的重音重音和和语调语调特点特点不一样不一样,是一种,

70、是一种附加附加的信息。的信息。汉语重音汉语重音主要表现在主要表现在时长时长增加,其次是增加,其次是调域调域扩大和扩大和音高音高提升。提升。西方语言西方语言如英语,重音是如英语,重音是辨意辨意的一个的一个重要特点重要特点。重音重音、语调语调和和声调声调也是构成也是构成语音学语音学的的一部分。一部分。 表示一句话中的重要的单词;表示一句话中的重要的单词; 表示疑问句;表示疑问句; 表示说话人的感情。表示说话人的感情。 超音段特征:超音段特征:语流中由语流中由音高音高、音长音长和和强度强度等方面的变化所表现等方面的变化所表现 出来的特征。为表现出来的特征。为表现说话人感情的重要特征说话人感情的重要特

71、征。超语言学特点:超语言学特点:低语表示秘密、高声说话表示愤怒等低语表示秘密、高声说话表示愤怒等。同音异义字(词):同音异义字(词):是指是指相同发音相同发音,有两种或,有两种或多种意思多种意思。第2章数字语音处理基础 2.4语音学基础及汉语语音学2.4.3汉语语音基本特性汉语语音基本特性汉语语音:汉语语音:音系简单音系简单,音素少音素少,音节少音节少。 音节音节一般由一般由声母声母、韵母韵母和和声调声调三部分组成。三部分组成。 普通话有普通话有 6000 多个多个常用字常用字,每字一个音节每字一个音节; 普通话有普通话有 1332 个个有调音节有调音节,其中可以单念的有,其中可以单念的有 1

72、268 个。个。 普通话有普通话有阴平阴平、阳平阳平、上声上声、去声去声、轻声轻声五个声调。五个声调。 不考虑声调,不考虑声调,无调音节无调音节共有共有 407 个。个。 汉字的汉字的“声声-韵韵”结构:结构:元音元音、辅音辅音+元音元音、元音元音+鼻辅音鼻辅音、 辅音辅音+元音元音+鼻辅音鼻辅音。汉语标准语音是汉语标准语音是北京语音北京语音,又称为,又称为普通话普通话。汉语中汉语中清辅音多清辅音多,且多为弱清音。,且多为弱清音。开口呼开口呼的的音节音节占全部音节的一半以上占全部音节的一半以上 (如用(如用 a 这个音素为主要元音的音节就占这个音素为主要元音的音节就占40%)。)。汉语语音听感

73、上有汉语语音听感上有清亮清亮、高扬高扬和和舒服舒服、柔和柔和的感觉。的感觉。第2章数字语音处理基础 2.4语音学基础及汉语语音学汉语拼音方案:汉语拼音方案: 10个个元音元音和和22个个辅音辅音组成;组成; 21个个声母声母(见表见表2.3)和)和36个个韵母韵母(见表见表2.4)。)。声母声母+韵母韵母组成组成400个个左右的音节,左右的音节,与与四声四声组成组成1600个个左右左右有调音节有调音节,有的音节没有对应的汉字。,有的音节没有对应的汉字。 第2章数字语音处理基础 2.4语音学基础及汉语语音学表表2.3汉语声母表汉语声母表发音方法发音方法发音部位发音部位双唇音双唇音唇齿音唇齿音舌尖

74、前音舌尖前音舌尖中音舌尖中音 舌尖后音舌尖后音 舌面前音舌面前音 舌根音舌根音塞音塞音清音清音不送气不送气b, 玻玻d, 得得g, 哥哥送气送气p, 坡坡t, 特特k, 科科塞擦音塞擦音清音清音不送气不送气z, 资资zh, 知知j, 基基送气送气c, 雌雌ch, 虽虽q, 欺欺擦音擦音清音清音f, 佛佛s, 思思sh, 诗诗x, 希希h, 喝喝浊音浊音r, 日日鼻音鼻音浊音浊音m, 摸摸n, 讷讷边音边音浊音浊音l, 勒勒表表2.4汉语韵母表韵母表单韵母韵母(6个个)a啊啊, o喔喔, e鹅, i衣衣, u乌, 迂迂复韵母复韵母(14个个)ai 哀哀, ei 诶, ao 熬熬, ou 欧欧,

75、ia 呀呀, ie 耶耶, ua 蛙蛙, uo 窝, e 约, er 而而, iao 腰腰, iou 忧, uai 歪歪, uei 威威鼻韵母鼻韵母(16个个)an 安安, ian 烟烟, uan 弯弯, an 冤冤, en 恩恩, in 因因, uen 温温, n 晕, ang 昂昂, iang 央央, uang 汪汪, eng “亨亨”的韵母的韵母, ing 英英, ueng 翁翁, ong “轰”的韵母的韵母, iong 雍雍浊音段的基音频率是随时间变化。浊音段的基音频率是随时间变化。基音频率的轨迹称为基音频率的轨迹称为声调声调。普通话的普通话的四声四声对应对应四种声调四种声调:阴平、阳

76、平、上声、去声。:阴平、阳平、上声、去声。汉语中,相同音节随声调的不同,意义可不同。汉语中,相同音节随声调的不同,意义可不同。 例:例:da的汉字为的汉字为搭搭、达达、打打、大大。声调轨迹声调轨迹始于韵母的起始端,到韵母的终止端结束。始于韵母的起始端,到韵母的终止端结束。图图2.25:汉语汉语四种声调四种声调的曲线示意图。的曲线示意图。阴平:阴平:几乎与时间轴平行,均值很高。几乎与时间轴平行,均值很高。阳平:阳平:从较低的频率一直上升到较高从较低的频率一直上升到较高 的频率,起始处稍稍下降。的频率,起始处稍稍下降。上声:上声:先降后升。先降后升。去声:去声:从较高的频率出发一直下降从较高的频率

77、出发一直下降 到极低的频率。到极低的频率。第2章数字语音处理基础 2.4语音学基础及汉语语音学图图2.25普通话四种声调的典型曲线普通话四种声调的典型曲线F0/Hz 阳平(二声)阳平(二声)180 阴平(一声)阴平(一声)160140 上声(三声)上声(三声)120 去声(四声)去声(四声)100 0 100 200 300 400 t/ms第第 2 2 章数字语音处理基础章数字语音处理基础2.5语音信号的特性分析语音信号的特性:语音信号的特性:主要是主要是声学特性声学特性、语音、语音时域时域和和频谱特性频谱特性、语、语音信号的音信号的统计特性统计特性等。等。2.5.1 语音的时间波形特性语音

78、的时间波形特性语音信号可用语音信号可用 其其时间波形时间波形表示,表示,观察波形可看出语音观察波形可看出语音 信号的一些重要特性。信号的一些重要特性。图图2.262.26:汉语汉语“同舟共同舟共 济济”的时间波形。的时间波形。第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析图图2.26语音语音“同舟共济同舟共济”的波形图的波形图(10kHz采样,16bit量化)(a)时域波形时域波形(b)时域波形时域波形(a)的展开图的展开图结论:结论:清辅音清辅音波形波形类似于白噪声类似于白噪声,振幅振幅很小,很小,没有没有明显的明显的周期性周期性;元音元音有明显的有明显的周期性周期性,且,且

79、振幅较大振幅较大。其周期对应声带振动的频。其周期对应声带振动的频率,即率,即基音频率基音频率,它是声门脉冲的间隔。,它是声门脉冲的间隔。 元音元音语音语音波形携带波形携带共振峰特性共振峰特性。语音信号属于短时平稳信号,语音信号属于短时平稳信号, 10 30 ms内其特性内其特性基本不变基本不变,或者,或者变化很缓慢变化很缓慢。可截取一小段语音进行频谱分析,得出语音的频域特性。可截取一小段语音进行频谱分析,得出语音的频域特性。第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析图图2.27:元音元音ou的的Fourier变换变换(始于始于F点,点,320样点,样点,Hamming窗窗)

80、由谱图能得看出浊音的由谱图能得看出浊音的基音频率基音频率及及谐波频率谐波频率(本例约(本例约200 Hz)。频谱中明显的凸起点,它们是频谱中明显的凸起点,它们是共振峰频率共振峰频率。 图图2.28:清辅音清辅音zh的的Fourier变换变换。频谱峰点之间的间隔是频谱峰点之间的间隔是随机的随机的,没有周期分量没有周期分量。第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析图图2.27元音元音ou的时域波形及短时频谱图的时域波形及短时频谱图 图图2.28清辅音清辅音zh的时域波形及短时频谱图的时域波形及短时频谱图 2.5.2语音信号的语谱图语音信号的语谱图时域和频域分析是两种重要方法,

81、但时域和频域分析是两种重要方法,但有局限性有局限性。时域分析时域分析对频率特性没有直观了解对频率特性没有直观了解;频域分析出的特征中频域分析出的特征中没有随时间的变化关系没有随时间的变化关系。语音信号是时变信号,所以其语音信号是时变信号,所以其频谱频谱也是也是随时间变化随时间变化的。的。一帧内可以认为语音频谱是不变的,这种频谱又称为一帧内可以认为语音频谱是不变的,这种频谱又称为短时谱短时谱。短时谱短时谱只反映只反映静态频率特性静态频率特性,不能反映,不能反映动态频率特性动态频率特性。改进措施:改进措施:时变频谱时变频谱(Fourier谱谱)图图,即,即语谱图语谱图。语谱图语谱图是是三维三维频谱

82、图,纵轴为频谱图,纵轴为频率频率,横轴为,横轴为时间时间,谱能量谱能量用相用相应点的应点的灰度灰度或或色调色调的的浓淡浓淡来表示。来表示。用语谱图分析语音又称为用语谱图分析语音又称为语谱分析语谱分析。第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析语谱仪:语谱仪:记录语谱图的仪器。现代可用记录语谱图的仪器。现代可用计算机完成计算机完成。语谱图:语谱图:显示大量与语音特性有关的信息,它综合了显示大量与语音特性有关的信息,它综合了频谱图频谱图和和时域波形时域波形的特点,明显地显示出的特点,明显地显示出语音频谱随时间语音频谱随时间的变化情况,的变化情况,或者说是一种动态的频谱。或者说是

83、一种动态的频谱。用语谱图用语谱图可确定可确定语音参数,例如语音参数,例如共振峰频率共振峰频率及及基音频率基音频率。语谱图的纹路,称为语谱图的纹路,称为“声纹声纹”;因人而异,可用于;因人而异,可用于讲话人识别讲话人识别。图图2.26:“同舟共济同舟共济”的的窄带窄带和和宽带语谱图宽带语谱图。语谱图中的花纹有语谱图中的花纹有横杠横杠、乱纹乱纹和和竖直条竖直条等。等。第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析图图2.26语音语音“同舟共济同舟共济”的语谱图的语谱图2.5.3语音信号的统计特性语音信号的统计特性语音信号的统计特性:语音信号的统计特性:可用波形振幅可用波形振幅概率密

84、度函数概率密度函数和一些统计和一些统计量如量如均值均值和和自相关函数自相关函数来描述。来描述。表示语音信号的统计特性的概率密度的估算方法是根据长时间表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段话音信号的大量样本数据的幅度绝对值计算出其幅范围内一段话音信号的大量样本数据的幅度绝对值计算出其幅度直方图,然后,根据统计的振幅直方图,寻找近似的概率密度直方图,然后,根据统计的振幅直方图,寻找近似的概率密度表达式。度表达式。研究表明,语音信号振幅分布的概率密度有修正伽玛研究表明,语音信号振幅分布的概率密度有修正伽玛(Gmma)分布和拉普拉斯()分布和拉普拉斯(Laplace)分布两种

85、逼近方法。)分布两种逼近方法。其分布概率密度函数为:其分布概率密度函数为: 第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析式中,式中,k是一个常数,是一个常数,, 是一个由标准差决定的常数是一个由标准差决定的常数对于长期统计来说,用拉普拉斯分布描述语音信号的统计特性对于长期统计来说,用拉普拉斯分布描述语音信号的统计特性不及用伽玛分布描述精确,但其函数式却简单逼近效果最差。不及用伽玛分布描述精确,但其函数式却简单逼近效果最差。应当注意,语音信号的振幅通常都趋向于集中在低电平范围内。应当注意,语音信号的振幅通常都趋向于集中在低电平范围内。同时还应注意到,通常语音信号的强度要经过压缩

86、,而振幅的同时还应注意到,通常语音信号的强度要经过压缩,而振幅的概率分布不仅反映从一个瞬时到另一个瞬时的样本的分布,而概率分布不仅反映从一个瞬时到另一个瞬时的样本的分布,而且还反映语音强度的总的变化且还反映语音强度的总的变化 第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析 定性说明:为什么当歌唱家张大他的下颌唱歌时,歌声的第一定性说明:为什么当歌唱家张大他的下颌唱歌时,歌声的第一共振峰频率会得到提升?(共振峰频率会得到提升?(4分)分) 第2章数 字 语 音 处 理 基 础 2.5语音信号的特性分析答:第一共振峰与舌位的高低密切相关,舌位高低,舌位低答:第一共振峰与舌位的高低密切相关,舌位高低,舌位低高。当歌唱家张大他的下颌时,舌位相对更低,因此第一共高。当歌唱家张大他的下颌时,舌位相对更低,因此第一共振峰频率会提升。振峰频率会提升。谢 谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号