一:语音信号的基本理论

上传人:乐*** 文档编号:113653030 上传时间:2019-11-09 格式:PPT 页数:52 大小:1.78MB
返回 下载 相关 举报
一:语音信号的基本理论_第1页
第1页 / 共52页
一:语音信号的基本理论_第2页
第2页 / 共52页
一:语音信号的基本理论_第3页
第3页 / 共52页
一:语音信号的基本理论_第4页
第4页 / 共52页
一:语音信号的基本理论_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《一:语音信号的基本理论》由会员分享,可在线阅读,更多相关《一:语音信号的基本理论(52页珍藏版)》请在金锄头文库上搜索。

1、第一章:语音信号的基本理论,语音的产生 语音信号的短时谱、语谱图以及元音、辅音的产生机理及特点 语音信号的产生模型 语音信号的短时分析技术 语音信号的短时自相关函数 语音信号的短时基音周期估计,1、语音信号的时频特性,一段语音信号的演示(MatLab),语音信号波形是语音声波经过声-电转换器得到的连续时间函数;波形图是语音幅度随时间变化的二维图。 波形以振幅随时间变化为特征,综合的表达了语音的全部信息:包括语音的内容、音调、音质、相对音量变化等;,波形特性,语音信号幅度动态范围一般最大为40分贝,实际由于说话人的差别可以达到6070分贝。 元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相似

2、。 在长时间的语音信号中有相当多的无信号区间,即所谓的语音寂静区间。 幅度概率密度函数以零幅和近似零幅的概率高,而幅度非常高的情况概率很小。 长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近。 对于短时幅度概率密度用高斯分布逼近就够了。,长时平均幅度的概率密度分布,语音信号相邻样值之间存在很大的相关性,短时自相关函数和长时自相关函数可以用来描述语音的幅度特性,以汉语发音为例来对语音波形图加以说明: 从波形图上可以区分以下几类发音: 无声段和幅度较小的随机噪声段:特点是波形幅度明显小于发音段,波形无规则 爆破音:特点是时长很短,仅有一两个脉冲,幅度大于无声段,一

3、般处于辅音前; 辅音:b,d,g,p,t,k,s,sh,x,h,f,z,zh,j,c,ch,q,m,n,l,r等,特点是波形幅度略大于无声段,波形无规则,一般处于具有周期性波形的元音之前; 元音:特点是波形幅度明显大于无声段,波形具有周期性。,频率特性,带宽有限 一般为203400Hz ,有限的带宽特性决定了可以用有限的奈奎斯特取样速率,把语音信号离散化 功率谱密度 语音中不同频谱分量的平均概率可以用长时平均谱密度来表示。 语音波形高频分量对语音总能量的贡献很小,但是高频分量带有重要的语音信息,平均功率谱约在250-500Hz处最大,而高于此频率的功率谱约以每倍频程610dB下降。 语音信号的

4、短时频谱并不总是低通特性。辅音有较高的频谱分量,显噪声特性;元音从总体上看是低通的,显示明显的局部特性。,语谱图,语谱图在1941年由贝尔实验室研究人员发明,它试图用三维的方式显示语音频谱特性, 纵轴表示频率,横轴表示时间,颜色的深浅表示特定频带的能量大小,语谱图的发明是语音研究的一个里程碑,它将语音的许多特征直观的呈现出来。 语谱图分为宽带语谱图和窄带语谱图两种。,语谱图,宽带语谱图:带宽约为300Hz,具有良好的时间分辨率,但是频率分辨率较差; 窄带语谱图:带宽约为45Hz,具有良好的频率分辨率,但是时间分辨率较差。 在不同的语谱图上所表现的语音特征也不同。,语谱图,宽带与普图的典型谱型:

5、 宽横杠(Bar):代表元音的共振峰位置,表现为图中与水平时间轴平行的较宽的黑杠,不同元音的共振峰位置不同,根据宽带语谱图上各横杠的位置可以区分不同的元音,不同人发音的第一共振峰位置会不同,但其分布结构是相似的。 冲直条(spike)代表塞音(b,d,g,p,t,k)或塞擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴平行的较宽的黑条,在时间上持续时间很短,在频率轴上集中区位置随不同的辅音而不同 摩擦乱纹(fill):代表摩擦音(s,sh,x,f,h)或者送气音的送气部分,表现为图中无规则的乱纹。,语谱图,窄带语谱图的典型谱型: 窄横条:代表元音的基音频率及各次谐波,表现为图中与水平

6、轴平行的线条,窄横条在频率轴的位置对应了音高频率值,随时间轴的曲折、升降变化代表了音高变化的模式 无声间隙段:对应于语音的停顿间隙,在图中表现为空白区,在两种语谱图中都存在。,毕业语谱图,旷课语谱图,曼谷语谱图,受用语谱图,瀑布 语谱图(SPECTROGRAM) 时间、频率、幅值三维坐标, 频谱帧随时间变化,彩色语谱图,发 “ah.”时的单元音 /a/,发 “eye”时的双元音 /ai/,发音 “real”,发音 “mean”,语音信号的产生,语音信号的频谱分量300-3400Hz 语音信号的短时性 5-50ms 语音信号的最基本组成单位是音素,音素可以分为浊音和清音,在短时分析的基础上可以判

7、断一段语音属于哪一类,清音与浊音,浊音(Voiced Speech ) 声带的振动产生准周期的声门脉冲激励声道产生浊音; 在时域是准周期的(quasi-periodic),在频域具有谐波结构; 周期脉冲的频率就是基频(Fundamental Frequency)或基音(Pitch); 清音(Unvoiced Speech ) 当气流在声道中受到阻碍时,产生湍流,此时生成清音。 清音在时域类似随机噪声,在频域具有宽带特征; 混合音(Mixed Speech ),浊音的能谱由精细的谐波结构和共振峰结构刻画。 共振峰结构,即谱包络(Spectral Envelope) 共振峰(Formant)就是谱

8、包络的峰值。 共振峰反应了声道的共振特性,一般人的声道有3到5个低于5kHz的共振峰。,语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性,有些段落中又具有噪声特性,而且周期性语音和噪声语音也在不断变化之中。 语音信号是非平稳的,但具有“准平稳特性” 在较短的时间间隔内(一般20200ms),可以认为语音信号的特征基本保持不变。 数字语音信号处理中,通常采取短时分析技术。,时变,准平稳,准周期,带限,2、语音信号的产生模型,语音产生模型起源于30年代发明的声码器(Vocoder) 基本思想是将激励与系统相分离,使语音信号解体,分别进行描述,而不是直接研究语音信号波形本身。 语音信号

9、被看成是线性时不变系统(声道)在随机噪声或准周期脉冲序列下的输出。,语音信号的产生模型,声道是由咽腔、鼻腔和口腔三个空气腔组成的,起于声门,止于两唇。一般成年人声道长度大约为17cm左右,最大截面积可达20平方厘米左右。 长期研究证明,发不同性质的声音时,声道的情况是不同的。大致上可以分为两大类: 发元音的情况:此时,声道的口腔为稳定的某种形状的谐振腔。由声门来的准周期脉冲波激励它而产生响应。所有单元音、复元音以及复鼻尾音的元音部分都属于这种情况。 发辅音的情况:此时又分为鼻音、阻塞音和摩擦音三种。发鼻音时,软腭下垂,鼻腔参加谐振响应(如发m,n等)。发阻塞音时,声道的某部分构成阻碍而完全封闭

10、,使声门来的激励波在此处形成高压湍流,然后突然开放而发出声音来(如发p,t,k,b,d,g等)。发摩擦音时,声道的某部分构成未完全封闭的阻碍,使激励波在此处形成高速湍流,与该处产生摩擦而发出声音来。如发f,s,sh,x,h,r等。,语音信号的产生模型,长期研究还证明,发不同性质的声音时,激励的情况也是不同的,大致上可以分为两大类: 发浊音的情况:此时气流在通过绷紧的声带时,激励声带产生振动,使得声门处形成准周期性的脉冲串,并用它去激励声道。声道绷紧的程度不同,震动的频率也不同,这个频率就是基调频率。它的倒数就是基调周期。浊音不仅包括所有的元音,还包括浊辅音(如,汉语中的擦音r,边音l,鼻音m、

11、n。在英语中,还有浊塞音b,d,g和浊擦音j,q,z,zh等) 发清音的情况。此时声道松弛而不振动,气流通过声门直接进入声道。所有清辅音(汉语中除m,n,l,r,以外的声母),都属于这种情况。,声带每开启和闭合一次的时间就是基调周期,其倒数称为基调频率。,语音信号的产生模型,激励模型 辐射模型 共振峰模型,激励模型,浊音激励信号,语音信号的产生模型激励模型,另一种情况是发清音的情况,这是,无论是发阻塞音还是摩擦音,声道都被阻碍形成湍流。所以都可以模拟成随机白噪声。实际上可使用均值为零的、方差为1的,并在时间或/和幅值上为白色分布的序列。 应该指出,这样简单的把激励分为浊音和清音两种情况是有缺陷

12、的。对于浊辅音,尤其其中的浊擦音,即使把两种激励简单的叠加起来也是不行的。但是,若是将这两种激励经过适当的网络之后,是可以得到良好的激励信号的。为了更好的模拟激励信号,还有人提出在一个基调周期时间内用多个斜三角波脉冲串的方法(如三个),此外,还有用多个脉冲序列和随机噪声序列的自适应激励的方法等。,清音激励信号 湍流,模拟成随机白噪声,方差为1,均值为0 激励源修正模型(混合激励模型),多脉冲激励模型 多脉冲序列与随机噪声序列自适应的方法等等。,辐射模型,R(Z)与嘴型有关,声道模型,短期内,声道可以表示为形状稳定的管道 各段管子截面积的和差比,称为反射系数,P为全极点滤波器的阶,其值越大,模型

13、传输函数与声道实际传输函数的吻合程度就越大,P=812。 ak为模型的系数。 V(Z)的共振极点与语音的共振峰对应:,问:一般共振峰的数目是多少?有什么估算共振峰频率的办法?,模型的内部结构并不和语音产生的物理过程一致,这种模型和真实模型只是在输出处等效。 模型是“短时的”,其中G(Z)和R(Z)不变,而基音频率、清浊开关、增益、声道参数ak都是时变的; 声道参数在1030ms的范围内近似不变; 激励参数在5ms左右近似不变。 语音信号处理的两个基本问题:语音分析与合成,都是基于这个模型来实现的。 还有更复杂更精细的模型。,语音信号的产生模型声道,最简单的声道模型可将它表示为由多个等长的不同截

14、面积的管子串联而成的系统,这就是声管模型。对于语音信号的某一短时时间,声道可表示为形状稳定的管道。而且在声频(小于4KHz,即波长大于声道尺寸的频率)范围内,可以认为沿管轴传播的是平面波。 声道的声管图 a立体图 b截面图,语音信号的产生模型共振峰模型,共振峰模型是描述声道模型的一种。是把声道视为一个谐振腔,共振峰就是这个谐振腔的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按照频率感受而排列其位置的,所以这种共振峰的声道模型是非常有效的。实践表明,用前三个共振峰来代表一个原因就足够了。对于比较复杂的辅音或者鼻音,大概要用到其中的五个以上的共振峰才行。,语音信号的产生模型共振峰模型,可以建立

15、起三个实用的共振峰模型:级联型、并联型和混合型。 此时可以将其分解为多个二阶极点的网络的串联,即: 式中,语音信号的产生模型共振峰模型,取其中的某一级则可表示为: 其幅频特性曲线为:,语音信号的产生模型共振峰模型,若取N=10则整个声道可模拟为(G为幅值因子):,语音信号的产生模型共振峰模型,语音信号的产生模型共振峰模型,语音信号的产生模型共振峰模型,混合型是一种比较完备的共振峰模型。可以根据要描述的语音,自动地进行切换。,语音信号的产生模型共振峰模型,并联部分,从第一到第五共振峰的幅度都可以独立的进行控制和调节,用来模拟辅音频谱特性中的能量及中去。此外,在并联部分还有一条直通路径,其幅度为控

16、制因子AB,这是专门为一些频谱特性比较平坦的音素(如f,p,b等)而考虑的。,完整的语音信号的数学模型可表示为三个子模型:激励模型、声道模型和辐射模型。也就是说完整的模型H(Z)可表示为: H(Z)=G(Z)V(Z)R(Z),语音信号的产生模型,浊音情况下,激励信号由周期脉冲发生器产生,为了使得信号具有声门脉冲的特点,经过一个声门脉冲模型 声门脉冲的传输函数 声门脉冲的特点:声门波形的幅度频谱按照每倍频12dB的速度递减。 系数 的作用是调整浊音信号的幅度或能量,清音情况下,激励信号是一个随机噪声发生器,可以设其均值 系数 的作用是调节清音信号的幅度或能量,声道模型,将声道作为一个变截面积的声管来研究,大多数情况下是一个全极点函数 P为阶数,实际应用中取812,激励源的修正模型,将语音信号截然分为周期脉冲激励和噪声激励两种情况,与实际情况不相符,将激励源进行修正,激励源可以是两种激励按照任意比例进行叠加,一种更精确的域音产生模型,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号