Waveform Characteristics 语音信号幅度动态范围一般最大为动态范围一般最大为40分贝分贝,实际由于说话人的差别可以达到60~70分贝元音幅度较大,有准周期性;清辅音幅度小,元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相似和噪声特性相似在长时间的语音信号中有相当多的无信号区间,即所谓的语音寂静区间语音寂静区间 幅度概率密度函数以零幅和近似零幅的概率高,而幅度非常高的情况概率很小长时平均幅度长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近对于短时幅度短时幅度概率密度用高斯分布逼近就够了 长时平均幅度的概率密度分布语音信号相邻样值之间存在很大的相关性n短时自相关函数短时自相关函数和长时自相关函数长时自相关函数可以用来描述语音的幅度特性Frequency Characteristics 带宽有限一般为20~3400Hz ,有限的带宽特性决定了可以用有限的奈奎斯特取样速率,把语音信号离散化 功率谱密度l语音中不同频谱分量的平均概率可以用长长时时平平均均谱谱密度密度来表示l语音波形高频分量对语音总能量的贡献很小,但是高频分量带有重要的语音信息,平均功率谱约在250-500Hz处最大,而高于此频率的功率谱约以每倍频程6~10dB下降。
l语音信号的短时频谱并不总是低通特性辅音有较高的频谱分量,显噪声特性;元音从总体上看是低通的,显示明显的局部特性Voiceless and voiced 浊音(Voiced Speech )l声带的振动产生准周期的声门脉冲激励声道产生浊音;l在时域是准周期的(quasi-periodic),在频域具有谐波结构;l周期脉冲的频率就是基频(Fundamental Frequency)或基音(Pitch);清音(Unvoiced Speech )l当气流在声道中受到阻碍时,产生湍流,此时生成清音l清音在时域类似随机噪声,在频域具有宽带特征; 混合音(Mixed Speech )浊音的能谱由精细的谐波结构和共振峰结构刻画l共振峰结构,即谱包络(Spectral Envelope)共振峰(Formant)就是谱包络的峰值l共振峰反应了声道的共振特性,一般人的声道有3到5个低于5kHz的共振峰语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性,有些段落中又具有噪声特性,而且周期性语音和噪声语音也在不断变化之中语音信号是非平稳的,但具有“准平稳特性” 在较短的时间间隔内(一般20~200ms),可以认为语音信号的特征基本保持不变。
数字语音信号处理中,通常采取短时分析技术时变准平稳准周期带限P为全极点滤波器的阶,其值越大,模型传输函数与声道实际传输函数的吻合程度就越大,P=8~12ak为模型的系数V(Z)的共振极点与语音的共振峰对应:问:一般共振峰的数目是多少?有什么估算共振峰频率的办法?问:一般共振峰的数目是多少?有什么估算共振峰频率的办法?Radiation model R(Z)与嘴型有关模型的内部结构并不和语音产生的物理过程一致,这种模型和真实模型只是在输出处等效模型是“短时的”,其中G(Z)和R(Z)不变,而基音频率、清浊开关、增益、声道参数ak都是时变的;声道参数在10~30ms的范围内近似不变;激励参数在5ms左右近似不变语音信号处理的两个基本问题:语音分析与合成,都是基于这个模型来实现的还有更复杂更精细的模型短时功率谱示例语谱图Difference between Vowels and Consonants 语言当中的音可以分为元音和辅音两大类汉语拼音方案中的 ü和英语中的[],[][][][]等 都 是 元音,汉语拼音的b p m f和英语中的b d g p t k等都是辅音。
一般说来,元音和辅音的区别可以从下面几个方面来考虑:1.从功能上来讲,元音往往能自成音节,辅音一般不能独立地构成音节2.在物理属性方面,元音基本上由乐音构成,辅音则有一定的噪音3.在听觉上,发元音时,声带振动,比较响亮;发辅音时,有的声带不振动,自然不够响亮,有的声带即使振动,但由于在声腔中受到某种阻碍,还是不如元音响亮4.在生理属性方面,主要有三个方面的区别:第一,发辅音的时候,发音器官的某一部位形成阻碍,气流在只有克服阻碍才能发出来;发元音的时候,气流通过生门使声带发生振动,气流在其通道上不受到阻碍,只受到各种共鸣第二,发辅音时,因为要克服某种阻碍,气流就比较强;发元音时,因无需克服阻碍,气流就比较弱第三,发辅音时,因为要有一定的阻碍,阻碍部位的发音器官就明显地紧张;发元音时,发音器官的紧张度并不集中于某个部位,发音器官的各部位均匀紧张三、元音: 要重点掌握8个基本元音 1.决定元音音质的因素:主要有三个方面的因素,一、舌位的高低,二、舌位的前后,三、嘴唇的圆展这三个因素的不同组合,便能发出不同的元音2.元音舌位图:[a][][][]是元音的四个极点,围成一个四边形,叫做元音舌位图。
变更口腔形状所能发出的绝大部分元音都在这个图的范围之内(1)[a]:前、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往前伸,舌位最低,发出的音像“爱”(ai)里面的前一个音,国际音标标为[a]2)[]:后、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往后缩,舌位最低,发出的音像“昂”(ang)里面的前一个音,国际音标标为[](1)[a]:前、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往前伸,舌位最低,发出的音像“爱”(ai)里面的前一个音,国际音标标为[a]2)[]:后、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往后缩,舌位最低,发出的音像“昂”(ang)里面的前一个音,国际音标标为[](3)[i]:前、高、不圆唇:嘴唇合拢,即开口度最小,舌头尽量往前伸,舌位最高,发出的音像“衣”(i),国际音标标为[i]4)[u]:后、高、圆唇:嘴唇合拢,即开口度最小,舌头尽量往后缩,舌位最高,发出的音像“乌”(u),国际音标标为[u] 前、高、不圆唇 后、高、圆唇 i u a 前、低、不圆唇 后、低、不圆唇 上图中,两条竖线代表舌位前后,横线代表舌位的高低。
同一条竖线上的元音,舌位的前后差不多(随着开口度的不断增大,舌位也逐步靠后,所以,两条竖线并不是竖直的,而是有点后斜,而且前面的倾斜程度要稍微大一些)同一条横线上的元音,舌位的高低也差不多,同样,随着舌位的逐步靠后,舌头所能达到的最高点也随之有所降低,所以,上面的那条横线有点向下倾斜 3.基本元音(cardinal vowals)(1)主要基本元音 前最高 i u后 半高 e o 半低 最低a 在元音舌位图中的四个极端元音的基础上,可以进一步得到8个主要基本元音 [e]:对于前面这条线,我们把从[i]到[a]的距离分成三等分,第一个三分之一处大致相当于汉语“梅”(mei)中的[e],称为半高元音,由于发这个音时,舌位靠前,嘴唇不圆,所以这个音被称为“前半高不圆唇”元音。
[]:把从[i]到[a]的距离分成三等分,第二个三分之一处大致相当于英语单词“fair”中的[],称为半低元音,由于发这个音时,舌位靠前,嘴唇不圆,所以这个音被称为“前半低不圆唇”元音[o]:对于后面这条线,我们把从[u]到[]的距离分成三等分,第一个 三 分 之 一 处 大 致 相 当 于 汉 语 “波”( bo) 中 的 [ o] 和 法 语 的beau[bo](美丽的),称为半高元音由于发这个音时,舌位靠后,圆唇,所以这个音被称为“后半高圆唇”元音元音三角图Vowel Triangle Diagram iauF1F230080024001200。