语音信号处理第2章-语音信号基础剖析

上传人:n**** 文档编号:94534399 上传时间:2019-08-08 格式:PPT 页数:73 大小:1.27MB
返回 下载 相关 举报
语音信号处理第2章-语音信号基础剖析_第1页
第1页 / 共73页
语音信号处理第2章-语音信号基础剖析_第2页
第2页 / 共73页
语音信号处理第2章-语音信号基础剖析_第3页
第3页 / 共73页
语音信号处理第2章-语音信号基础剖析_第4页
第4页 / 共73页
语音信号处理第2章-语音信号基础剖析_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《语音信号处理第2章-语音信号基础剖析》由会员分享,可在线阅读,更多相关《语音信号处理第2章-语音信号基础剖析(73页珍藏版)》请在金锄头文库上搜索。

1、第2章 语音信号处理的基础知识,2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析,2.1 概述,语音信号处理是用数字信号处理技术对语音信号进行分析和研究的学科,其目的: 一是要得到反映语音信号重要特征的语音参数,以便高效的传输或储存语音信号; 二是要通过运算,实现语音信号的应用,如语音合成、辨识讲话者、识别讲话内容等等。,2.2语音和语言,人们讲话时发出的话语叫语音,语音(Speech)是声音(Acoustic)和语言(Language)的组合体。 语音:是由一连串的音组成语言的声音。,2.2 语音和语言,

2、人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)接收阶段(5)理解阶段,2.2 语音和语言,语音研究分为两类: 语言学:包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处理的基础。 语音学:考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。语音学发展成为三个主要分支:发音语音学、声学语音学、听觉语音学。,2.2 语音和语言,语音是一种声波,声波的特征属性: 音色:也叫音质,指包含的谐波成分,是不同声音相互区别的基本特征。 音调:声波的频率。 音高:声波的强度或者振动幅度决定。 音长:

3、发音的持续时间。,2.2 语音和语言,音节:说话时发出的响亮中心,并被明显感觉到的语音片段叫音节(Syllable)。 英语单词发音时,是几个字母几个字母地拼起来发音的,几个拼起来发音的字母叫一个音节如单词China,划分成chi-na两个音节,单词international分成in-ter-na-tio-nal五个音节,单词English划分成Eng-lish两个音节。 而汉语则是一个字一个音节,2.2 语音和语言,Yogurt有两个音节yo-gurt,2.2 语音和语言,Companions有3个音节, Com-pa-nions,2.2 语音和语言,但我也爱星天,2.2 语音和语言,一个音

4、节可以由一个音素(Phoneme)构成,也可以由几个音素构成。 音素:是语音发音的最小单位。分为元音(Vowel)和辅音(Consonant)两类。,2.2 语音和语言,中文星天,2.2 语音和语言,元音和辅音的区别: 元音:元音是在发音过程中由气流通过口腔而不受阻碍发出的音。发音时从肺部呼出的气流通过起共振作用的口腔,阻力极小并无摩擦声音的语音。 辅音:呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。,2.2 语音和语言,元音和辅音的区别 元音另一个重要声学特征就是共振峰:共振峰参数是区别不同元音的重要参数,它一般包括共振峰频

5、率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 一般地说:区分语音是男声还是女声、是成人声音还是儿童声音,共振峰频率的高低是重要因素。,2.2 语音和语言,根据发音时声带是否振动,分为浊音和清音的区别。 通常元音为浊音,辅音为清音,但也有一部分辅音发声时,声带振动,因此辅音中有一部分是浊音。,2.3 汉语语音学,汉语语音的特点: 音系简单。这是指音素少、音节少。音节的结构也比较简单。 由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。 有鲜明的轻重音和儿化韵,所以字词分隔清楚,

6、语言表达准确而丰富。,2.3 汉语语音学,汉语音节的一般结构 汉语的每个汉字是一个音节,音节一般由声母、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中14段属于声母(辅音),69段属于韵母(元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。,2.3 汉语语音学,汉语音节的一般结构,2.3 汉语语音学,汉字天,2.3 汉语语音学,汉语声母的结构 声母共有21个,b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s,可分为六大类:擦音、塞音、塞擦音、边音、鼻音、零声

7、母 声母除了零声母外,其它都是单辅音,2.3 汉语语音学,汉语韵母的结构 8个单韵母,如a、i、u等; 14个复韵母,如ai、ao等; 16个鼻韵母如an、uang等。 应该注意,元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两种不同的概念,尽管它们之间有一定的联系。,2.3 汉语语音学,声母和韵母的相互作用音征互载 声母和韵母的音征并不总是在各自的音段之内,而且又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里也可能带有声母的信息,如辅音音渡。,2.3 汉语语音学,汉语的声调 汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声

8、调。 声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。,2.3 汉语语音学,汉语的声调 汉语普通话四种声调的典型曲线:,2.4 语音生成系统和语音感知系统,语音发音系统 人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。这些器官共同形成一条形状复杂的管道。 喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道(Vocal Tract)。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。,2.4 语音生成系统和语音感知系统,语音听觉系统 人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和

9、鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器,把声音通过机械变换产生神经发放信号。,2.4 语音生成系统和语音感知系统,听觉系统,2.4 语音生成系统和语音感知系统,语音听觉系统:时频分析和掩蔽 时频分析:如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。 掩蔽效应:并非所有的声音

10、都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。,2.4 语音生成系统和语音感知系统,同时掩蔽,2.4 语音生成系统和语音感知系统,短时掩蔽,2.5 语音信号生成的数学模型,语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时,采用线性时不变模型。,2.5 语音信号生成的数学模型,声道模型,语音信号 的产生模型,激励模型,辐射模型,声管模型,共振峰模型,级联型,并联型,混合型,系统模型,对于一阶全极点传递函数 传递函数所对应的幅度响应实际上是:,当a0,当a0,系统模型,对于

11、二阶的全极点传递函数 其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点在单位圆内,因此传递函数的极点应该是共轭对称的。,系统模型,极点位置在0 /2内时,系统模型,极点位置在/2 内时,系统模型,在采样率fs=4000Hz,如果假设共振峰频率为fc=500Hz,则一个二阶的全极点传递函数应该如何设计? 则极点为共轭的,因此极点的角频率为: 则极点位置为:,p=0.98,P=0.5,系统模型,一阶全零点系统 其频谱响应?,系统模型,当a0,系统模型,当a0时,系统模型,对于二阶的全零点系统 零点的位置没有限定要求,那么其幅度响应,当零点在0 /2内时,在零点在/2 内时,2.5 语

12、音信号生成的数学模型,语音信号的数学模型 完整的语音信号数字模型是:激励模型、声道模型和辐射模型的串联。,2.5 语音信号生成的数学模型,语音信号的数学模型 U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角形脉冲序列的z变换;在清音的情况下, U(z)是一个随机噪声的z变换。 V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。 R(Z)是辐射模型,一阶高通。,2.5 语音信号生成的数学模型,激励模型 浊音激励 浊音:由于声带不断张开和关闭,将产生间歇的脉冲波,因此浊音激励波是一个以基音周期为周期的斜三角脉冲串,其数学表达式如下:,2.5 语音信号生成的数学模型,由于单个斜三

13、角波的z变换形式为: 而斜三角波的脉冲串可以看成单位脉冲串(脉冲串的传递函数为E(z)通过斜三角波的滤波器,因此斜三角波脉冲串的模型是单位脉冲和斜三角波的乘积,2.5 语音信号生成的数学模型,清音激励 随机白噪声,2.5 语音信号生成的数学模型,声道模型 共振峰模型 一个元音用前三个共振峰来表示,而对于较复杂的辅音或鼻音,用前五个以上的共振峰。 可以建立起三种实用的共振峰模型:级联型、并联型和混合型。,2.5 语音信号生成的数学模型,级联型 声道是一组串联的二阶谐振器:从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型; 对于一般元音,则用全极点模

14、型,传输函数可分解表示为多个二阶极点的网络的串联:,2.5 语音信号生成的数学模型,级联型 如二阶全极点传递函数 其极点和频谱响应为:,2.5 语音信号生成的数学模型,级联型,2.5 语音信号生成的数学模型,并联型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,NR,则上式可分解为如下部分分式之和的形式:,2.5 语音信号生成的数学模型,并联型 M=5时的并联型共振峰模型,2.5 语音信号生成的数学模型,混合型 对于鼻化元音、阻塞音或摩擦音,腔体具有反谐振特性,必须考虑零点,使之成为零极点模型。 将级联模型和并联模型结合起来的混合模型也许是比较完备的一

15、种共振峰模型。,2.5 语音信号生成的数学模型,混合型,2.5 语音信号生成的数学模型,辐射模型 辐射阻抗的公式如下: 式中, , (a是口唇张开时的开口半径),c是声波传播速度 辐射模型是一阶类高通滤波器,其等价的z变换,2.6 语音信号的特性分析,语音信号的特性: 声学特性 时域波形 频谱特性 统计特性,2.6 语音信号的特性分析,语音信号的时域波形和频谱特性 在时间域里,汉字天的拼音“tian”的时间波形fs=8kHz,16bit。,2.6 语音信号的特性分析,语音信号的时域波形和频谱特性 清辅音,波形类似于白噪声,振幅很小,没有明显的周期性; 元音具有明显的周期性,且振幅较大。它们的周

16、期对应的就是声带振动的频率,即基音频率。,2.6 语音信号的特性分析,语音信号的时域波形和频谱特性 语音信号属于短时平稳信号,一般认为在1030ms内语音信号特性基本上是不变的,或者变化很缓慢。,2.6 语音信号的特性分析,语音信号的语谱图 时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。 语音的时频分析特性,用语谱图(Sonogram,或者Spectrogram)表示,2.6 语音信号的特性分析,语音信号的统计特性 波形振幅概率密度函数 统计量如均值和自相关函数,2.6 语音信号的特性分析,语音信号的统计特性 语音信号振幅分布的概率密度有两种逼近方法,修正伽玛(Gamma)分布概率密度函数: 拉普拉斯(Laplace)分布概率密度函

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号