数字语音处理基础(OLD)

资源描述

《数字语音处理基础(OLD)》由会员分享，可在线阅读，更多相关《数字语音处理基础(OLD)（65页珍藏版）》请在金锄头文库上搜索。

1、大连海事大学信息科学技术学院光电信息工程研究所,主讲人：乌旭 E-Mail: Tel: 86958567,语音信号处理,第二章数字语音处理基础,2.1 语音信号的基本特性 2.2 发音的生理器官与过程 2.3 听觉和感知 2.4 语音信号的特性分析方法简介 2.5 语音学基础及波形特征,2.1 语音信号的基本特性（1）,语音信号（Speech Signal）：一般地，语音信号是指由人的发音器官所发出的声音信号；广义地说，我们所研究地语音信号可能包括人或其他动物所发出的声音信号以及环境噪声和其他机械装置（如乐器）所产生的声音信号。其能量（信息）主要集中在 04000Hz带宽范围内

2、。音频信号（Audio Signal）：人的听觉系统所能感知的声音信号，其频率范围在2020，000Hz。电话语音信号由于语音信号的能量主要集中在04000Hz的频带内，因此传统的电话语音通信系统中采用3003400Hz的带通滤波器来限制通过电话网络传输的语音信号。语音信号处理研究的对象主要还是由人的发音器官所产生的语言声音信号。,语音信号的基本特征：频谱分量集中在3003400Hz 短时平稳性在 550ms 的短时内，信号的其本特征具有平稳性：能量过零率频谱周期性语音信号的组成结构音素是语音信号的基本组成单位。音素（Phoneme）- 音节（Syllable）

3、- 词（Word）-句子（Sentence）,元音（Vowel）,辅音（Consonant）,音素,音素,浊音（Voice）,清音（UnVoice）,静音（Silence）,2.1 语音信号的基本特性（2）,浊音声带振动有周期性频谱上表现出共振峰特性清音声带不振动频谱上有噪声特性静音环境噪声产生的信号，与人的发音系统无关,2.1 语音信号的基本特性（3）,清音与浊音,浊音（Voiced Speech ）声带的振动产生准周期的声门脉冲激励声道产生浊音；在时域是准周期的（quasi-periodic），在频域具有谐波结构；周期脉冲的频率就是基频（Fundamental F

4、requency）或基音（Pitch）；清音（Unvoiced Speech ）当气流在声道中受到阻碍时，产生湍流，此时生成清音。清音在时域类似随机噪声，在频域具有宽带特征；,语音信号的时域波形,时变特性: 有时准周期性、有时随机噪声特性平稳性：在短时内保持相同特性幅度特性：幅度时大时小,男人可以在社会上参加一切活动,男。人,可。以。,语音信号的短时谱（1）,语音短时谱：从语音信号流中利用加窗的方法取出其中的一段，再对其进行傅立叶变换，可以得到该“短时语音” 的短时频谱。,浊音谱,清音谱,语音信号的短时谱（2）,浊音谱：频谱曲线比较规则，频谱中具有几个明显的周期性起伏点。这些峰值

5、点称为共振峰（Formant），其对应的频率成为共振峰频率，用F1、F2.表示，分别成为第一共振峰、第二共振峰、。一般地，共振峰有57个，其中前三个携带大量地语音信息，对区分不同地语音非常重要。清音谱：谱结构较平坦，无明显的周期性起伏结构；没有明显的共振峰特性；类似一般的随机噪声谱特性。,2.2 发音的生理器官与过程,2.2 发音的生理器官与过程,发声器官主要由四个功能部分构成：肺和气管：动力部分喉：激励生成机构声道：受激励系统，它对声音进行调制，形成语音嘴：完成声道气流的辐射，形成声波,2.2 发音的生理器官与过程,语音产生的机理图,肺活量,声带（声门）,咽腔,软腭,鼻

6、腔,口腔,气管及支气管,鼻音,口音,主声道：声门以上，经咽喉、口腔的管道。鼻道：经小舌和鼻的管道称为鼻道。次声门系统：经肺、气管和支气管的管道。,肌力,喉的构造,肺部气流通过喉部构成发音的动力激励部分喉部发音器官的关键部位声带声带之间的空隙声门声带功能：吃东西时闭合，防止食物误入肺中；来自肺部的发音气流通过声门时，声带的开放与闭合，形成一个气流脉冲，构成发音的动力部分。发浊音时，气流冲击声带振动，产生周期性的气流脉冲发清音时，声带张开，气流顺利通过声门,2.2 发音的生理器官与过程,激励,125Hz基因频率时，声带开启的面积和时间的关系,声带每开启/闭合一次的时间（即声

7、带的振动周期）就是语音的基因周期，其倒数称为基因频率，通常约为50450Hz 成年男性：50250 成年女性：200450,2.2 发音的生理器官与过程,通过声门的周期性气流的周期Tp称为基音周期（Pitch Period） Fp1/Tp称为基音频率（Fundamental Frequency）不同年龄、不同性别的人发出的声音的基因频率有不同的特征：老年人的声带松弛，基因频率低小孩的声带短，基因频率高女人的基因频率普遍比男人高,基音频率是我们区分不同人的声音的主要特征之一,2.2 发音的生理器官与过程,2.2 发音的生理器官与过程,声道纵剖面图调制,2.2 发音的生理器官与过程,气流从

8、喉向上经过口腔或鼻腔后从嘴或鼻孔辐射出来所经过的通道，即为声道。声道由咽喉、口腔和鼻腔组成。口腔是声道最重要的部分，大小和形状可通过调制舌、唇、齿和腭来改变。在调制发音时，舌是最活跃的部分声道是发音系统中的受激励部分，声道器官构成的空腔系统对来自喉部的激励信号进行调制（滤波），形成语音信号。声道具有短时平稳性，即其在短时间内（如20-50ms）的机械特性保持不变。声道中决定其空腔特性的两个重要器官：软腭其位置决定鼻音和非鼻音；舌决定声道最小橫截面积出现的位置，也是声道频率特性的决定因素。,2.2 发音的生理器官与过程,声道可以看作一种具有某种谐振特性的腔体，其腔体不同位置的谐振频率就

9、是对应的共振峰频率。语音信号的频率特性一方面取决于声门脉冲串特性，另一方面取决于声道特性。一般成年男子声道长约为17cm, 最大横截面积可达20cm2,声门,鼻孔,软腭,嘴唇,鼻孔和嘴唇完成声道气流的辐射，产生声波。嘴的形状会影响语音的频谱特性，但较之声道是次要的。一般成年男子鼻腔长约为10cm,2.2 发音的生理器官与过程,发不同音时咽腔的形状变化,2.3 听觉和感知（1）,人的发音器官构成了语音产生系统，人的听觉器官则是语音信号的接收系统。具有显著的物理机械特性，比较客观，因此目前人类对发音器官的研究已经比较透彻；但是听觉系统则比较复杂，它与人的大脑和神经系统紧密结合，形成人类对语言声音

10、的理解能力，目前对该领域的研究还很不完善。虽然人们对听觉和感知系统的研究还很肤浅，但其中的很多成果仍在语音编码、语言合成和语音识别系统中发挥了显著效果。例如人耳的听觉掩蔽效应广泛应用于中低速率语音编码系统；在MP3编码器中采用的心理声学模型；在语音识别系统中，根据听觉系统的处理特点所采用的预处理模块。以下对人耳的基本结构和人耳的感知特性作一个基本介绍。,听觉和感知-人耳的基本结构（2）,外耳，其主要作用是（1）对声源的定位；（2）对声音的放大。外耳道共振峰频率约3000Hz。,中耳，其主要作用是（1）三块听小骨构成的链连接外耳和内耳，实现声阻抗的匹配；（2）保护内耳。,内耳，其主要构成部

11、分是耳蜗。它是听觉的受纳器，声音的机械振动在耳蜗被转换成神经脉冲信号，并通过神经系统传送到大脑语言中枢。,听觉和感知-耳蜗的频率响应（3）,听觉产生过程声波骨膜振动听小骨传递耳蜗基底膜振动产生神经脉冲,听觉和感知-人耳的感知特性（4）,声音的物理参数：频率，振幅，频谱特性，时间长度人耳对声音的心里响应：音调，响度，音色 1。听觉阈人耳能接收的声音信号频率范围： 2020000Hz 人耳能忍受且感知的声音强度： 130dB 几个声学量概念定义如右：,听觉和感知-响度和响度级（5）, 响度和响度级Loudness and Loudness Level 响度单位： Sone（宋）

12、1kHz单音，声强级40dB时听到的响度。响度级单位： Phon（方）数值上等于具有等响度的1kHz的单音的声强级。,听觉和感知-响度和响度级（6）,听觉和感知-音调（7）,听觉和感知-掩蔽效应（8）, 掩蔽效应 Masking Effect 同时有两个声音进入耳朵，响度比较大的声音对弱的声音有干扰，使人的耳朵对弱的声音反映不敏感，称为掩蔽效应。纯音对纯音的掩蔽通常低音容易掩蔽高音噪声对纯音的掩蔽临界带宽：当白噪声的总能量与纯音的能量相同时所对应的带宽。,与声音有关的几个术语,音高是人对声波频率的主观属性，它首先与声波的频率有关。声波的振动频率高，我们听到的声音就高，反之亦然，但它们之

13、间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的，一般可分为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音，辅音主要是不能连续发出的短促的噪音，元音与辅音合成汉语音节。响度是声波振幅的主观属性，它是由声波的振幅引起的。振幅越大则响度越大，但它们之间也不是线性关系。,声音质量的评价,我们经常会对某一位歌手的歌声发表意见，并与其他歌手进行比较，这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题，也是一个值得研究的课题。目前来看，声音质量的度量有两种基本方法，一种是客观质量度量，

14、另一种是主观质量的度量。,声音客观质量的度量方法,声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号，然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展，使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器，能完成下列一些测量工作：,评价值的测量响度和响度级，噪音级，清晰度指数，噪音评价数。声源的测量频谱的时间变化，声功率，指向性，效率，频谱特征，幅值分布等。音质的测量混响时间，隔音量，吸音量。,声音客观质量的度量方法,声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器，同时，它能进行客观而可重复的声

15、压和声级测量。声压测量的好处很多：它能帮助音乐厅提高音响效果；能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害，并提醒人们采用适当的听力保护措施。因此，声测量是不可少的。度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise Ration），信噪比是有用信号与噪声之比的简称。其单位是分贝(dB)。,声音客观质量的度量方法,声音主观质量的度量,采用客观标准方法很难真正评定某种编码器的质量，在实际评价中，主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价，例如播放一段音乐，记录一段话，然后重放给实验者听

16、，再由实验者进行综合评定。可以说，人的感觉机理最具有决定意义。当然，可靠的主观度量值是较难获得的。,平均判分（Mean Opnion Scose-MOS）过程是召集一批实验者，请每个实验者对某个编解码器的输出进行质量判分，采用类似于考试的五级分制，不同的MOS分对应的质量级别和失真级别见表4-。,声音主观质量的度量,声音主观质量的度量,声音质量分级与带宽,声音的质量与它所占用的频带宽度有关，频带越宽，信号强度的相对变化范围就越大大，音响效果也就越好。,按照带宽可将声音质量分为4级：,数字激光唱盘质量，通常又CD-DA质量，这种质量也就是我们常说的超高保真，即Super HiFi(High Fidelity)。调频无线电广播，简称FM(Frequency Modulation)质量。调幅无线电广播，简称AM(Amplitude Modulation)质量。电话(Telephone)质量。,

展开阅读全文

数字语音处理基础(OLD)

最新文档