数字语音处理第二章

资源描述

《数字语音处理第二章》由会员分享，可在线阅读，更多相关《数字语音处理第二章（62页珍藏版）》请在金锄头文库上搜索。

1、第二章语音信号的数字模型,2.1 概述,1,2.2 语音的发音机理,2.3 语音的语音听觉机理,3,2.4 语音的感知,4,2.5 语音信号模型,5,2.6 语音信号数字模型,6,2,2.1 概述,本章重点介绍语音信号产生的数字模型，对语音信号的特性和听觉特性做一般介绍。,2.2 语音的发音机理,2.2.1 人的发音器官 1.组成肺和气管组成声源；喉和声带称为声门；由咽腔、口腔、鼻腔组成声道；,图2.1 发音器官机理模型,2. 功能肺：产生压缩气体，通过气管传送到声音生成系统。喉：控制声带运动的复杂系统。主要包括：环状软骨、甲状软骨、杓状软骨、声带。,声门：声带之间的间隙称为

2、声门。主要功能：产生激励。声道：声道指声门至嘴唇的所有发音器官。包括：咽喉、口腔和鼻腔。主要功能：传输调制声波。声道的形状变化由舌、软腭、唇、牙决定。,口腔包括：上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为：硬腭和软腭两部分；舌又分为：舌尖、舌面和舌根三部分。鼻腔在口腔上面，靠软腭和小舌将其与口腔隔开。当小舌下垂时，鼻腔和口腔便耦合起来，当小舌上抬时，口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。,图2.3 声道纵剖面图,2.2.2 语音生成图2.1为语音生成其机理模型。空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。在声门（声

3、带）以左，称为“声门子系统”，它负责产生激励振动；右边是“声道系统”和“辐射系统”。当发不同性质的语音时，激励和声道的情况是不同的，它们对应的模型也是不同的。,图 2.1 发音器官机理模型,语音生成动作可分为两种功能：（1）激励（2）调制,2.2.2 语音生成-浊音,空气流经过声带时，如果声带是崩紧的，则声带将产生张弛振动，即声带将周期性地启开和闭合。声带启开时，空气流从声门喷射出来，形成一个脉冲，声带闭合时相应于脉冲序列的间隙期。因此，这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波，这便是浊音语音。这个准周期脉冲的周期即为基音周期。,基音频率是由

4、声带张开闭合的周期所决定的：男性的基音频率一般为50250Hz；女性基音频率为100500Hz。,2.2.2 语音生成-清音,空气流经过声带时，如果声带是完全舒展开来的，则肺部发出的空气流将不受影响地通过声门。空气流通过声门后，会遇到两种不同情况。一种情况是，如果声道的某个部位发生收缩形成了一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近产生出空气湍流，这种湍流空气通过声道后便形成所谓摩擦音或清音。,元音i:,原音u,2.2.2 语音生成-爆破音,另一种情况是，如果声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，闭合点突然开启便会让气压快速释放，经过声道

5、后便形成所谓爆破音。,共振峰频率或共振峰声音产生后，便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管，在发音时起着共鸣器的作用。声音进入声道后，其频谱必定会受到声道的共振特性的影响，声道具有一组共振频率，称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。,2.3 语音的听觉机理,2.3.1 听觉器官人的听觉器官包括：外耳、中耳和内耳,图2.3 人耳结构示意图,1.外耳外耳由耳廓(耳翼)、外耳道和耳鼓（鼓膜）组成。 2.中耳组成：包括三块听小骨:锤骨，砧骨

6、和镫骨。作用：阻抗匹配和限幅外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器，可以用有限冲激响应(FIR-Finite Impulse Response)滤波器来模拟。,3. 内耳内耳是一个充满液体的骨质结构，由前庭、圆形窗、卵形窗及耳蜗组成。,2.3.2 耳蜗的信号处理机制,当声音经外耳传入中耳时，镫骨的运动引起耳蜗内流体压强的变化，从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高，流体波传播的很快。随着波的传播，膜的硬度变得越来越小，波的传播也逐渐变缓。不同频率的声音产生不同的行波，而峰值出现在基底膜的不同位置上。,图2

7、.7 基底膜上六个不同点的频率响应,1 基底膜 2 内毛细胞 3 外毛细胞 4 听传导通路,2.3.3 语音信号听觉模型,听觉系统的研究主要集中在三个方面：听觉系统的实验研究、听觉系统的建模和听觉模型的应用。听觉系统的实验研究主要是指听觉系统在医学、生理学及心理学方面的研究。由于耳蜗深植于颅骨中，尺寸极小（如蜗管的直径只有1mm），所以耳蜗的实验研究是一项非常艰巨和复杂的工作。耳蜗建模主要集中在基底膜的振动上，然而，建立基底膜的振动模型是耳蜗建模的首要任务，它又被称为耳蜗的宏观力学模型。,图2.10 语音信号听觉模型一般原理框图,语音信号首先通过一串带通滤波器(BPF)阵列，其中心频率跟随着

8、图2.7所示的基底膜频率响应按照对数尺度分布。每一个带通滤波器都被独立的设定为有限冲激响应滤波器(FIR)或无限冲激响应滤波器(IIR)，但是频率响应的波形并不是严格精确的。,被滤波的信号在通过内毛细胞/突触模型之后，到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的，但是在接下来几级的信号处理过程却有很大差异。事实上，不同的听觉模型都各自拥有不同的IHC模型，突触模型和听传导通路模型。一些模型为每一个滤波后的信号都设有独立的频道，而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。,根据人耳的听觉特性得出的模型作为语音识别的特征提取部分，可获得具有鲁棒性的

9、特征参数，它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。,2.4 语音的感知,2.4.1 几个概念 1. 人耳听觉界限的频率范围大约为20Hz-20kHz。 2. 语音感知的强度范围是0130dB声压级。 3. 响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常，人们把1kHz纯音听阈值定为零方。,4. 人耳刚刚可以听到的声音强度，称为“听阈”。加大声音的强度，使听起来令耳朵感到疼痛，这个阈值称为“痛阈”。 5.音高(音调) 音高也叫基音。物理单位为Hz，主观感觉的音高单位是美(Mel)。当声强

10、级为40dB频率为1kHz时，设定的音高为1000美。,2.4.2 掩蔽效应,掩蔽效应：两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，即：一个声音的听觉感受性受同时存在的另外一个声音的影响，这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音，后者称为掩蔽音。在掩蔽情况下，被隐蔽音的听阈会提高，即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。,低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应，在进行语音压缩时，让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉

11、加权处理。低音容易掩蔽高音，而高音掩蔽低音较难。基于此，可以将真实的声音频率映射到“感知”频率尺度，即Bark尺度对应的临界带宽。,2.4.3 临界带宽与频率群,用一中心频率为f，带宽为f的白噪声来掩蔽一频率为f的纯音，先将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将f由大到小逐渐变化，而保持单位频率的噪声强度（即噪声谱密度）不变，起初这个纯音一直是听不见的，但当f小到某个临界值时，这个纯音就突然可以听见了。如果再进一步减小f，被掩蔽音f就会越来越清晰。这里刚刚开始能听到被掩蔽声时的f宽的频带，叫做频率f处的临界带。,当掩蔽噪声的带宽窄于临界带的带宽时，能掩蔽住纯音f的强度是随

12、噪声的带宽的增加而增加的，但当掩蔽噪声的带宽达到临界带后，继续增加噪声带宽就不再引起掩蔽量的提高了。临界带宽是随中心频率而变的，被掩蔽纯音的频率（即临界带的中心频率）越高，临界带宽也越宽。临界频带也可定义为：一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。一个频率群的划分相应于基底膜分成许多很小的部分，每一部分对应一个频率群。一个临界带的单位用巴克（Bark）表示。,2.5 语音信号模型,有三部分作用施加在语音的声波上：声门产生的激励模型G(z)；声道产生的调制函数V(z)；嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成，即：H(z)=G(z)V(z)

13、R(z),2.5.1 激励模型,发浊音时，产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。,图2.9 三角波及其频谱图,单个三角波的数学表达式为,其中：N1为斜三角波的上升时间 N2为其下降时间,单个斜三角波的频谱G(ej)表现出一个低通滤波器的特性。其z变换的全极点形式为：,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的z变换形式,浊音激励模型可表示为清音可以模拟成随机白噪声。,2.5.2 声道模型-（1）共振峰模型,典型的声道模型有两种：无损声管模型和共振峰模型。（1）共振峰模型当声波

14、通过声道时，受到声腔共振的影响，在某些频率附近形成谐振。反映在信号频谱图上，在谐振频率处其谱线包络产生峰值，一般把它叫作共振峰。,实践表明，用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型：,一个二阶谐振器的传输函数可以写成,无损声管模型：是假定声道由多个等长的不同截面积的管子串联而成的系统，并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内，声道可表为形状稳定的管道，并可以认为声波是沿管轴传播的平面波。,2.5.2 声道模型-（2）无损声管模型,对于N个无损声管级联的情况，可得到无损声管的传递函数为：,从声道模型输出的是速度波ul (n)，而语音信号是声压波Pl

15、(n)。二者倒比称为辐射阻抗Zl，它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积，利用单板开槽辐射的处理方法，可以得到辐射阻抗，r近似为1,2.5.2 声道模型-（3）辐射模型,由辐射引起的能量损耗正比于辐射阻抗的实部R(z)，其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时，常用所谓预加重技术。这样，模型只剩下声道部分，对参数分析就方便了。在语音合成时再进行解加重处理。,2.6 语音信号数字模型,2.6.1 数字模型（1）组成：包括三部分：激励模型、声道模型和辐射模型。激励源分浊音和清音两个分支，按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。,（2

16、）在浊音的情况下，激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为T的冲激序列,T的倒数即为基音频率。为了使浊音的激励信号具有声门气流脉冲的实际波形，还需要使上述的冲激序列通过一个声门脉冲模型滤波器。,（3）在清音的情况下，激励信号由一个随机噪声发生器产生。设其均值为0，方差为常数，幅度具有高斯概率分布。乘系数的作用是调节清音信号的幅度。（4）图2.16中画出了一段浊音语音产生过程中的有关波形。,（5）声道模型V(Z)给出了离散时域的声道传输函数，把实际声道作为一个变截面声管加以研究，采用流体力学的方法可以导出，在大多数情况下它是一个全极点函数。V(Z)可以表示为：,把截面积连续变化的声管近似为P段短声管的串联，每段短声管的截面积是不变的。P称为这个全极点滤波器的阶。P值越大，模型的传输函数与声道实际传输函数的吻合程度越高。辐射模型R(Z)与嘴型有关，通常R(Z)可以表示为,在这个模型中，除了G(Z)和R(Z)保持不变以外，T、Av、Au、清/浊音开关的位置以及声道模型

展开阅读全文