第讲语音信号处理基础知识

资源描述

《第讲语音信号处理基础知识》由会员分享，可在线阅读，更多相关《第讲语音信号处理基础知识（61页珍藏版）》请在金锄头文库上搜索。

1、2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析2.1 概述语音信号处理v目的:v 一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息；v二是要通过处理的某种运算以达到某种用途的要求，例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。研究用数字信号处理技术对语音信号进行处理的一门学科语音中包含的信息v语言（文字）v说话人信息：身份、性别、年龄v方言：认老乡的主要依据v情感（情绪）v语种：国外找“亲人”的主要信息来源v说话方式（快、慢、耳语）v语音品质（口语、朗诵

2、、流畅性、动听度）v健康状况：特别是发音器官病变重要概念v语音v音节v元音、辅音v清音、浊音v声母、韵母v共振峰、音色v语谱图、声纹2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析2.2 语音和语言语音是人的发声器官发出的一种声波，它具有一定的音色，音调，音强和音长。一种声音区别于另一种声音的基本特征声音的高低，它取决于声波的频率声音的强弱,声波的振动幅度决定声音的长短叫音长，它取决于发音时间的长短语音v语音（Speech）=声音（Acoustic）+ 语言（Language），是二者的组合

3、体v语音是由一连串的音组成语言的声音语言是从人们的话语中概括总结出来的规律性的符号系统。2.2 语音和语言2.2 语音和语言2.2 语音和语言不同层次的单位:语素、词、短语和句子语法和语义内容:词法、句法、文脉2.2 语音和语言v人的说话的过程：v 语音学(Phonetics)是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。现代语音学发展成为三个主要分支：发音语音学声学语音学听觉语音学2.2 语音和语言2.2 语音和语言v 当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过，这种音称为元音。 2

4、.2 语音和语言v 呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音。v发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是浊音，声带不振动的是清音。（b/p）2.2 语音和语言v决定元音音色的主要因素是舌头的形状及其在口腔中的位置 (简称舌位)、嘴唇的形状(简称口形)等。v元音的另一个重要声学特性是共振峰（Formant）。共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（ Formant Frequency）的位置和频带宽度（Formant Bandwidth）。 v一般地说，女声和童声的基频高于男声

5、，但是实验表明：区分语音是男声还是女声、是成人声音还是儿童声音，更重要的因素是共振峰频率的高低。 2.2 语音和语言v发音器官产生元音的三条件声道受到声带振动的激励引起共振；在语音流的持续过程中，声道不发生极端的狭窄，并维持较稳定的形状；和鼻腔不发生偶合，声音只从口腔辐射出去。这三个条件中，只要缺少其中之一，则该语音就是辅音。辅音没有明确的共振峰结构。辅音发音时的阻碍的位置叫调音点（Place of Articulation）、阻碍的方法叫调音方式（Manner of Articulation ）2.2 语音和语言v调音方式等的不同可以把辅音分成如下几类：塞音、摩擦音、塞擦音、鼻

6、音、边音、颤音、通音。v根据发辅音时声带有无振动，可以把辅音分类成浊辅音和清辅音。v根据辅音除阻后是否紧跟着送出一股气来，可以把辅音分类成送气辅音和不送气辅音。2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析2.3 汉语语音学汉语语音的特点： v音系简单。这是指音素少、音节少。音节的结构也比较简单。 v由于清辅音多，而且多是弱清音，而且开口呼的音节占全部音节的一半以上，所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。 v有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。汉语的拼

7、音方法v汉语由音素构成声母或韵母。有时，将含有声调（汉语通常认为有五个声调）的韵母称为调母。由单个调母或由声母与调母拼音成为音节。v汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词（其中主要是两音节字构成的两字词，约占74%），最后再由词构成句子。v国际上，都是用音标来描述拼音过程的。汉语也不例外。汉语拼音的音标包括：声母表、韵母表和声调符号等。汉语音节的一般结构 v汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字v每个汉字是一个音节，如将同音字合一处理，则汉语中共有 1332个有调音节，其中可以单念的有1268个。v汉语中一般有五个声调，即

8、阴平、阳平、上声、去声以及轻声。如果不考虑声调，则汉语中无调音节共有407个。 v汉语音节的一般结构，由9个部分组成。其中14段属于声母（辅音），69段属于韵母（元音），第5段是二者的过渡段。一个音节可能只包含里面的某几段，但是第7段（主要元音段）是每个音节是具有的。汉语音节的一般结构汉语声母的结构 v普通话中的22个声母可分为六大类：擦音塞音塞擦音边音鼻音零声母除零声母之外，其他所有的声母全部都是单辅音。汉语韵母的结构 v普通话的38个韵母大致可以分为三类8个单韵母，如a、i、u等14个复韵母，如ai、ao等16个鼻韵母如an、uang等在这38个韵母中有三个（-i、er、）是

9、特殊韵母。v应该注意，元音并不等于韵母。元音、辅音是按音素的发音特征分类的；而声母、韵母则是按音节结构分类的。这是两种不同的概念，尽管它们之间有一定的联系。声母和韵母的相互作用音征互载 v在普通话里，声母和韵母的音征并不总是在各自的音段之内，而且又可能跨越两者的边界，即声母里可能会带有韵母的信息，韵母里也可能带有声母的信息，如辅音音渡。如果把韵母从元音起始就开始算起的话，那么音渡就是韵母中载带的辅音音征，对于某些辅音来说，如不送气塞音b、d，元音里的音渡正是它们之间相互区别的主要音征。v而韵母中的某些音征有声带载带的现象，最典型的就是介音的实现方式。汉语的声调v汉语是一种

10、声调语言，相同声母和韵母构成的音节随声调的不同而具有完全不同的意义，对应着不同的汉字。汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声调。v声调的变化就是浊音基音周期（或基音频率）的变化，各个韵母段中基音周期随时间的变化产生了声调，变化的轨迹称为声调曲线。汉语的声调汉语普通话四种声调的典型曲线： 2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析2.4 语音生成系统和语音感知系统语音发音系统 v人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。这些器官共同形成一条形状复杂

11、的管道。喉的部分称为声门。v从声门到嘴唇的呼气通道叫做声道（Vocal Tract）。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变，而发出不同的语音。语音听觉系统v人耳由内耳、中耳和外耳三部分组成。v 外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。v 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换，即将中耳两端的声阻抗匹配起来，同时对内耳起着保护的作用。v内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器，把声音通过机械变换产生神经发放信号。语音听觉系统人的听

12、觉系统语音听觉系统v人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时频分析特性；另一个是人耳听觉掩蔽效应。v如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲，耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。v并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。时间掩蔽：同时掩蔽和短时掩蔽频率掩蔽2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析2.5 语音

13、信号生成的数学模型v所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。v建立语音信号的数字模型，才能用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。 2.5 语音信号生成的数学模型v理想的模型是线性的和时不变的。v语音信号是非平稳随机过程，其特性是随着时间变化的，所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时，可

14、以采用线性时不变模型。激励模型v激励模型一般分成浊音激励和清音激励来讨论。发浊音时，由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：N1为斜三角波上升部分的时间，N2为其下降部分的时间。喉内窥镜图像声门波曲线声门及声门波激励模型v单个斜三角波波形的频谱的图形如图2-18所示。由图可见，它是一个低通滤波器。它的变换的全极模型的形式是：vc是一个常数。显然，上式表示斜三角波形可描述为一个二极点的模型。因此，斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。激励模型v单位脉冲串及幅值因子则可表示成下面的z变换

15、形式：所以，整个浊音激励模型可表示为：也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。声道模型v目前最常用的有两种：声管模型、共振峰模型v声管模型：把声道视为由多个等长的不同截面积的管子串联而成的系统。v共振峰模型：把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。v由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的，所以这种共振峰的声道模型方法是非常有效的。v一般来说，一个元音用前三个共振峰来表示就足够了；而对于较复杂的辅音或鼻音，大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和混合型。

16、声道模型级联型v这时认为声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。v传输函数可分解表示为多个二阶极点的网络的串联：声道模型级联型声道模型并联型v对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下： v通常，NR，且设分子与分母无公因子及分母无重根，则上式可分解为如下部分分式之和的形式：v这就是并联型的共振峰模型。如图2-21所示（M=5）。声道模型并联型声道模型混合型v上述两种模型中，级联型比较简单，可以用于描述一般元音。当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，级联模型就不能胜任了。这时腔体具有反谐振特性，必须考虑加入零点，使之成为零极点模型。采用并联结构的目的就在于此，它比级联型复杂些，每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以

展开阅读全文