语音信号处理-第3版-第2讲

资源描述

《语音信号处理-第3版-第2讲》由会员分享，可在线阅读，更多相关《语音信号处理-第3版-第2讲（32页珍藏版）》请在金锄头文库上搜索。

1、2.1语音发音及感知系统 2.2语音信号生成的数学模型 2.3语音基本概念与参数 2.4语音信号的数字化和预处理 2.5语音信号的应用,第2章语音信号处理的基础知识,语音信号处理：研究用数字信号处理技术对语音信号进行处理的一门学科目的：（1）通过处理得到一些反映语音信号重要特征的语音参数，以便高效地传输或存储语音信号信息（2）通过处理的某种运算已达到某种用途的要求,第2章语音信号处理的基础知识,人们讲话时发出的话语叫语音，它是一种声音，具有称为声学特征的物理特性。语音（Speech）是声音（Acoustic）和语言（Language）的组合体。可以这样定义语音：语音是由一连串的音组成

2、语言的声音。人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。喉的部分为声门。从声门到嘴唇的呼气通道叫做声道，声道形状的不断改变。发出不同的语音。,2.1语音发音及感知系统,语音是由肺至唇各种器官作用而发出的，其作用的方式有3种：（1）把肺部呼出的直气流变为音源（2）对音源起共振和振的作用，使之带有音色（3）从唇或鼻向空间辐射对发音影响最大的是声带，每开启和闭合一次的时间即声带的共振周期，就是音调周期或基音周期，其倒数为基音频率（其范围随发音人的性别、年龄而定）。E.g.老年男性偏低，小孩和青年女性偏高基音频率决定了声音频率的高低，频率快则音调高，频率慢则音调低。,2.1语音

3、发音及感知系统,人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、音调、音强、判断方位等功能。听觉具有选择性：能被人耳听到的声音取决于声音的强度和频率范围。（一般人可以感觉到20Hz20kHz，强度为-5dB130dB的声音信号）听觉具有掩蔽效应：指在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。,2.1语音发音及感知系统,2.2 语音信号生成的数学模型理想的模型是线性的和时不变的。语音信号是非平稳随机过程，其特性是随着时间变化的，所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出

4、一些合理的假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时，可以采用线性时不变模型。,激励模型激励模型一般分成浊音激励和清音激励来讨论。浊音激励模型：由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：式中，N1为斜三角波上升部分的时间， N2为其下降部分的时间。,激励模型浊音激励：单个斜三角波的Z变换的全极模型的形式是： c是常数。上式表示斜三角波形可描述为一个二极点模型。斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。,

5、激励模型单位脉冲串及幅值因子则可表示成下面的z变换形式：所以，整个浊音激励模型可表示为：也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。,幅值因子,激励模型清音激励模型：模拟成随机白噪声，实际中一般使用均值为0，方差为1，并在时间（幅值）上为白色分布的序列,声道模型声道部分的模型目前最常用的有2种建模方法。（1）是把声道视为由多个等长的不同截面积的管子串联而成的系统，即“声管模型”。（2）是把声道视为一个谐振腔，即“共振峰模型”。共振峰模型，把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率，表达式： i=1,2,表示共振峰序号，c为声速，L为声管长度,基于物理声学的

6、共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和混合型。声道模型级联型声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联：,声道模型级联型,幅值因子,级联型共振峰模型,若10个极点，则可以表示为5个二阶极点的网络串联，即声道可以模拟成下图所示的模型,声道模型并联型对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：上式可分解为如下部分分式之和的形式：这就是并联型的共振峰模型。

7、如图2-21所示（M=5）。,声道模型并联型,图2-21 并联型共振峰模型,声道模型混合型上述两种模型中，级联型比较简单，可以用于描述一般元音。当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，级联模型就不能胜任了。这时腔体具有反谐振特性，必须考虑加入零点，使之成为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此，将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。,声道模型混合型共振峰模型,为频谱特性比较平坦的音素而考虑,辐射模型从声道模型输出的是速度波，而语音信号是声压波，二者之倒比称为辐射阻抗。它表征口唇的辐射效应，也包括圆形

8、的头部的绕射效应等。如果认为口唇张开的面积远小于头部的表面积，则可近似地看成平板开槽辐射的情况。此时，可推导出辐射阻抗的公式如下：式中，是口唇张开时的开口半径，是声波传播速度。,辐射模型由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。在实际信号分析时，常用所谓的“预加重技术”，即在取样之后，插入一个一阶的高通滤波器。这样，只剩下声道部分，便于声道参数的分析在语音合成时，再进行“去加重”处理，就可以恢复原来的语音,语音信号的数学模型综上所述，完整的语音信号的数字模型可以用三个子模型：激励模型、声道模型和辐射模型的串联来表示。如图所示：它的传输函数可

9、以表示为：,声压：定量描述声波的基本物理量，是由声扰动产生的逾量压强，是空间位置和时间的函数有效声压：通常讲的声压指的是有效声压，即在一定时间间隔内将瞬时声压对时间求方均根值所得，计算公式为：,2.3 语音基本概念与参数,语音长度,离散点数,语音信号的采样点,声压级（Sound pressure Level, SPL）：声音的有效声压与基准声音之比，取以10为底的对数，在乘以20，即为声压级，用表示，单位dB. 在空气中参考声压一般取,2.3 语音基本概念与参数,声强：声音在单位时间内作用在与其传递方向垂直的单位面积上的能量声强级（Intensity Level, IL）用声强的物理学单

10、位表示声音强弱很不方便，当人耳听到两个强度不同的声音时，感觉的大小大致上与两个声强比值的对数成比例。用对数尺度来表示声音强度的等级，单位dB 参考声强取值,2.3 语音基本概念与参数,声压与声强的关系：对于球面波和平面波，声压和声强的关系表达为：空气中，空气密度与声速的乘积，称为空气对声波的特性阻抗，单位，瑞利,2.3 语音基本概念与参数,响度：描述声音的响亮程度，表示人耳对声音的主观感受，单位宋，定义为声压级为40dB的1kHz纯音的响度为1宋频率与音高：以Hz为单位所测得的物理量频率，对听者来说感知为心理量音高，即用人的主观感觉来评价所听到的声音时高调还是低调。音高随频率的增加而

11、提高。,2.3 语音基本概念与参数,语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；预处理一般包括预加重、加窗和分帧等。在分析处理之前必须把要分析的语音信号部分从输入信号中找出来这项工作叫做语音信号的端点检测。,2.4 语音信号的数字化和预处理,预滤波、采样、A/D变换预滤波的目的有两个：抑制输入信号各频域分量中频率超出fs/2的所有分量（fs）为采样频率，以防止混叠干扰。抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：绝大多数语音编译码器： fH=3400Hz，fL=60-100

12、Hz，fS=8kHz 要求较高的场合fH=4500HzfL=60Hz采样率fS=10kHz,预滤波、采样、A/D变换语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。 A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大，或量化间隔足够小时，可以证明量化噪声符合具有下列特征的统计模型：它是平稳的白噪声过程量化噪声与输入信号不相关量化噪声在量化间隔内均匀分布，即具有等概率密度分布,预滤波、采样、A/D变换若用x2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长, e2

13、表示噪声序列的方差,可以证明量化信噪比SNR（信号与量化噪声的功率比）为：假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4x的概率很小，只有0.35%，因而可取Xmax=4x，则上式表明量化器中的每bit字长对SNR的贡献为6dB。,语音输入输出过程：对重构的语音波形的高次谐波起平滑作用去掉高次谐波失真。,预处理已数字化的语音信号序列将依次存入一个数据区，在语音信号处理中一般用循环队列的方式来存储这些数据，以便用一个有限容量的数据区来应付数量极大的语音数据，已处理完提取出了语音特征参数的一个时间段的语音数据可以依次抛弃，让出存储空间来存储新数据。调频收发技术中，通常采用预加重（发送端对输入信号高频分量的提升）和去加重（解调后对高频分量的压低）技术解决高频传输困难的问题。,语音增强语音编码语音合成与转换语音隐藏语音识别声源定位情感识别,2.5 语音信号处理的应用,

展开阅读全文

语音信号处理-第3版-第2讲

最新文档