语音信号处理－金锄头文库

资源描述

《语音信号处理》由会员分享，可在线阅读，更多相关《语音信号处理（177页珍藏版）》请在金锄头文库上搜索。

1、条卿矩昭赊清枚谭臭袭档徒堑嘘竞吕煮效境藐袍栗匠毛收鸽窿盒祷弹席堵语音信号处理语音信号处理语音信号处理院定选修课学时：32学分： 2信号信息处理的重要研究方向太秉际犁庶凤赣酮蚀斜戌梧贰伟群航剐动动钳签挥柱则疚丹迄扎侥辖朔蹬语音信号处理语音信号处理1第一章第一章绪绪论论研究对象研究对象语音：语语言言的的声声学学表表现现。由由人人的的发发音音器器官官发发出出的的、具具有有一一定语法和意义的声音定语法和意义的声音。重要性：最最重重要要、最最有有效效、最最常常用用、最最方方便便的的信信息息交交换换手段。手段。“四会四会”语音信号处理：用用数数字字信信号号处处理理技技术术对对语语音音信信号号进进行

2、行处处理。理。新兴、综合性、交叉学科；新兴、综合性、交叉学科；涉及到语言学、声学、认知学、涉及到语言学、声学、认知学、心理学。心理学。信号与信息处理的重要组成部分信号与信息处理的重要组成部分热门学科，存在大量机遇热门学科，存在大量机遇饭钨垒吁竣茄旭制外挫侧欲染鸳怖酌楼泰荔蹋示郎挎思煎括甭谎眷知添啸语音信号处理语音信号处理2研究内容包括：研究内容包括：语音编码语音编码压缩压缩语音合成语音合成计算机讲话读文章计算机讲话读文章语音识别语音识别口授打字机等，翻译口授打字机等，翻译关键词识别关键词识别语音增强语音增强说话人识别说话人识别“声纹声纹”身份识别。身份识别。虾棍逼蜂媒敲哑也侦快刀希妇煎硬磺肉耳

3、伎翌早氰娱和筹傲之赫枚随程呀语音信号处理语音信号处理3教学内容与目标教学内容与目标：课程内容课程内容：基本概念的建立；各种理论和算法介绍。教学目标教学目标：对语音信号处理有基本了解，为以后的研究工作做储备。氨萎棍榆罩阅桑邓憋嗓幅滤临篓痊褪约武艾拱帜琅贵蕴撤斯央揣探誊蚂邦语音信号处理语音信号处理4发展概况发展概况：39年的声码器用于通讯年的声码器用于通讯40年代后期的语谱仪年代后期的语谱仪60年代的数字模型年代的数字模型70年代的年代的LPC80年代的年代的VQ以及以及HMM90年代的神经元等新技术年代的神经元等新技术烟铝呵流任踌脓刚恕茁镣痊夺般镭睡咀脐雷丰祥柿炭泡朝炙熊柯依敦梨蘑语音信号处理语

4、音信号处理5第二章语音信号处理的基础知识2.1 概述概述本章讨论内容1、语音产生模型语音产生模型线性模型线性模型2、语音学基本内容语音学基本内容信息交流信息交流“发音传递感知发音传递感知”三个阶段三个阶段发音语音学发音语音学确定发音机理确定发音机理声学语音学声学语音学信号分析理论解释语音现象信号分析理论解释语音现象听觉语音学听觉语音学认识感知的过程认识感知的过程哮聋纳氮屑寝泻礼堵群煞界烦炸镭互狠崎又颠梆梢辨咆跃隶捣坑柔辖魔说语音信号处理语音信号处理62.2 语音产生的过程语音产生的过程语音是具有一语音是具有一定意义的声音。定意义的声音。经分析：经分析：欲表达欲表达选择词、语句选择词

5、、语句控制肌肉运动控制肌肉运动振动空气形成语音振动空气形成语音波波与箫、唢呐比较与箫、唢呐比较耙勘剔重跟弘入松柿订斗预海兜巷而肚难灸雍抉驯重枕桌拾再查嚷脏面心语音信号处理语音信号处理7等效为激励源声道喇叭口腾狸噶金家寸碗葛枯尿怪拓祥合具揣第桔藐途质酮镜除萌扛上犬翌浊拆螺语音信号处理语音信号处理8等效为激励源声道喇叭口激励源：声带声带振动频率基频(基音频率)清音声带不振动浊音声带振动声道：可变谐振腔不同形状、不同音共振(谐振)频率c为声速，L为声道长度，n为谐振频率的序号分析认为，声道的谐振频率(设截面均匀)：暗查刁竹砖电禾企绍土憎姜筒疼再捡寐辣琐凳握躇拐滚躬篓餐氮饮柄读峙语音信号处理语音

6、信号处理9共振峰Fn的局部最大值，称为共振峰。与声道对应，反映语音的频率特性，是语音的主要特征之一。不同人不同，同一人发不同音时也不同。第一共振峰F1第二共振峰F2第三共振峰F3峡沙翰澈卖徒犁侧陈股服霸界浴麓羡彼枯真澎荒挞诣抉欢黔哪缝缉蜒骇懈语音信号处理语音信号处理10一般地：语音识别，取前3个共振峰，而对语音合成，需取5个频率范围(Hz)成年男子成年女子带宽F120080025010004070F2600280070033005090F3130034001500400060180传胡厩吐猩鹅弧素喀谭奢催鹤今樱糯扑澡们皿亩绩蛊慕拦档局忍百穗豺码语音信号处理语音信号处理112.3语音信号的特性2

7、.3.1 语言和语音的基本特性语言和语音的基本特性语言，特殊的声音，按一定规则排列声音的物理属性声音的物理属性音质：基本特征音调：频率音强：量、响度、幅度音长：声音的长短语音特有的属性语音特有的属性音节：语音流的最小单位音素：语音的最小单位，音素构成音节感情：重音语调声调等赠桂橱滁骑推迹榴菠淋泳隐咽王提熊斡坊哆赶动裳训谍娥亭令迂扯稗恫呼语音信号处理语音信号处理122.3.2 语音的时间波形和频谱特性语音的时间波形和频谱特性看一段实际语音放大结论1：时间的连续函数、频率幅度随时间变化是随机的豹呻询饲漾骆世顿昏腕珠根韶幅稍箭隅面锹耽犊吠景澡城救履崭鱼陡昼位语音信号处理语音信号处理13元音元音其中

8、一段再放大结论2：短时间短时间内近似认为不变结论3：元音是准周期函数(基频)基音周期晌痒亚谤蠕梯清峭耸曳孵叛蟹殷孵睬器羊箭赃壳绣驶税脆蒲友冲挚弛飘豌语音信号处理语音信号处理14清音清音结论4：清音为随机起伏式尺鱼垛挪谊畴延漆窝皆钮勋轧咏捶湿裁涪蝗膨走式砂谜斌慷粳韦谚席械语音信号处理语音信号处理152.4语音信号产生的数字模型理想模型标准准确但不可能，必近似、简化简单最好用成熟的理论线性模型线性系统语音信号脉冲序列脉冲序列激励源，线性系统声道喇叭口激励源周期序列(浊音)/随机序列(清音)线性系统短时内不变粒拳霖沮缘造演肛嘶苞获凛撞洼辖宫知柿塞鹏查饺琼级绕侮蜒局躯倒唁匈语音信号处理语音信号

9、处理16一个实用模型P16图212激励模型声道模型辐射模型祖彦最奏铜有模脖乙迸潘凰酮诬谢崩皱领渍规昆扁锐仓喳靠巳惨媚罪戳油语音信号处理语音信号处理17小结语音的时间波形连续、随机、短时性、基频、清/浊音、共振峰线性模型激励声道辐射琳抚猜豪掸情篷裔山叛勤货苔鳞接刮文术惩邓障首麦穗佬踩旅帮嚎健蛰字语音信号处理语音信号处理182.4.1 激励模型激励模型根据前节分析，激励源在清、浊音时不同，分别讨论浊音浊音有人测量知，声带振动产生斜三角型脉冲波Tp为冲激脉冲的周期，声门波模型产生单个声门脉冲将其表示为Z变换，有：冲激序列：E(z)浊音激励模型： U(z) = AVG(z)E(z) 清音清音随

10、机白噪声痴抨枪坊唤淄蕾洋辈婉渝视树假敲颧吨颧己踪烯蹦林歹片养趣屏印崔重琐语音信号处理语音信号处理192.4.2声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学)，需简化。有不同的模型。1、声管模型“短时”间声道是一个形状稳定的级联管道声音在不同截面积间传输会有反射，反射系数：km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性，确定Km，就确定了声道！A1A2A3.琐今卒崎俯踌嘶唱星餐培卢赘督犊瞬拉擞父噪僻脱珠授浴延诺竣露毅枪润语音信号处理语音信号处理202、共振峰模型根据声道近似为谐振腔的特性，有另外模型模拟其共振峰。35个(1)级联

11、型用串联网络模拟声道。一般元音用全极点模型，转移函数：G 幅值因子Ak 模型系数P 极点个数(阶数)P、ak决定了声道地特性(人的特征)，p越大越吻合。一般p=812利用Z变换的知识，把H(z)分解为多个二阶极点网络的级联：H1H2H3Hp/2驰逮臀皆坷姿祁恳苗睦憾咽旺潜芬饶查去份窿剐忙刽迄示互赏逐吾洪盈掘语音信号处理语音信号处理21(2)级联型用并联网络模拟声道。大部分音用零极点模型，转移函数：级联简单，可用于一般元音，一般35级并联复杂，可用于许多音，但Ai难控制吏涝仍诱霉蕴狰抖戎慨卯什梧楚看附买处精澳椿焙槛惭曹储姨抗沟削卖都语音信号处理语音信号处理221)辐射+声门脉冲的作用合并在线性系

12、统中2)时变参数：基频、开关、增益、参数3)“终端模拟”(听输出结果)验证有效4)模型可能要修正2.4.3辐射模型声道输出的速度波，经口唇变成声压辐射效应研究得模型R(z)=R0(1Z-1)2.4.4完整的语音信号数字模型综上，激励声道辐射有V(z)=U(z)H(z)R(z)准周期脉冲序列发生器随机序列发生器线性时变系统基音周期系统参数清/浊音控制增益控制语音信号祸版霄孵惠户盎活肤楼聊份恒村最摩硫搜巳言的惫妮卜除砷懦眺团篓咸云语音信号处理语音信号处理232.5语音感知研究人对声音的感知，对语音编码识别很重要MP3。对人的感知认识还有过程。研究发现：听觉(主观感觉)与声波不完全一样声音三要属(响

13、度、音调、音色)在人听起来相互影响，且人的敏感度不同，分配不同bit。听觉掩蔽效应利用感知加权滤波器改善语音质量捣犬氰甸馋鸳谨窜沈伞瑰母堕暇骤吾萝春蚌煽荫梯惠祈猴柳仰肚兔钻钻薪语音信号处理语音信号处理24第三章语音信号的时域分析3.1概述为甚分析与怎样分析1、通过分析，进一步了解、区别语音，提取少量参数描述语音，获得基音、开关、增益等模型参数2、分析方法：模型分析LPC、共振峰等非模型分析时域、频域、倒谱域等3、“短时分析技术”基本方法，帧，加窗4、必要时考虑时变性，用HMM本章用短时分析技术，在时域提取基频、清浊、增益抖卿像孺附蹬膀盅更鲍筋艺裸呸灶兢鼻莽瘪扒光桃舞框牢叁毋拙茎供见信语音信号处

14、理语音信号处理253.2语音信号的数字化和预处理3.2.1取样率与量化字长的选择1、抽样定理抽样频率8K、16K等2、量化误差e(n)平稳、均匀分布，大小与量化间隔、编码字长(最小8bit)有关3、量化信噪比SNR与信号的峰值、量化字长有关一般分析，字长为16bit反混叠滤波器抽样量化模拟信号x(t)离散信号x(n)抽样信号肢沮旷铝州榆纯香歼故嘎嚎涟塔萨澈泳妻离醚昂杯辛弗河限堂焚窑返柑亭语音信号处理语音信号处理263.2.2预处理1、语音信号处理框图2、滤波器特性要求使混叠失真足够小，阻带66dB，用9阶椭圆滤波器 3、加重减小动态范围H(z)=1uz-1与滤波器同时实现，也有在AD后欺戊萎灰

15、跺六辑末州艇渡叛迭夏然荚拧瞥瞧猾垢摸崭诲农赫踢迎卜岁谨贼语音信号处理语音信号处理273.3短时能量分析1、“短时分析”本章一直在用。取一段的方法：加窗“分帧”帧长与帧移：取的点数为帧长，乘以采样周期得帧长时间两帧间隔为帧移两帧一定有重叠，否则有参数突变！信号x(n)，窗函数w(n)，加窗后为x(m)w(n-m)吏谰平迷拒氧赵求帅岩扮旭词德萄尉劫钎腰抖倾俯妖芬熟澈撑疫苍帆樊扬语音信号处理语音信号处理282、短时平均能量及含义根据前法，对加窗后的信号求解XX得短时XX短时平均能量：每取一个n，得到一个En。n的间隔为帧移。上式变形：H(z)X2(n)En糙皑歇椅啤背茨绎戎砧巢窿吗询绩远寸糕札塌羡买

16、敛恶禁剪智敷发赛汇锻语音信号处理语音信号处理293、窗口选择以上分析见，加窗为一滤波器取出一部分。同前，滤波器的特性影响结果。希望直角窗1,0nN-1h(n)=0,其他海明窗(Hamming)h(n)=0.54-0.46cos2npi/(N-1),0n m=m1+n 则：计算自相关，先乘后加，运算量大！用来求基音周期！雪爱氟钳订迁浙琉拒奉嘛迸匡设诞慕猫温矣忍增好削釉倚杉帘叠槽瘟斤阿语音信号处理语音信号处理363.5.2修正的短时自相关函数1、存在的问题随k的变化，参加运算的项减少。极限k=N-1时无运算项！2、修正的短时自相关函数两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K

17、-k】Kk当w1,w2为直角窗时(0kK)k=250k=0坪邱蜘纂辨哉七撬炸榆亩铱砧环胃掸臃涎饯顷碾恒褐榔本栏掌牧拦圆乡碴语音信号处理语音信号处理373.5.3短时平均幅度差函数问题的提出：自相关计算量大，大在乘法！短时平均幅度差函数(AMDF)定义：式中R为x(n)的平均值w1、w2同修正的自相关函数中的定义对于浊音信号，在周期倍数点上，幅值相等，Fn0丘世咬歹锚翠之材锦杆阳迪褪敞登族臀辞渊柠沸勿魂炕芬氧刨浙瘫巧驻围语音信号处理语音信号处理38第三章小结采样与反混叠短时分析方法、窗口与长度选择短时能量定义短时过零分析短时相关分析与修正短时平均幅度分析(AMDF)戳姿边霉痉毫椿耕岔淤譬腑破隋茅

18、桩外往削阂藏沤阶仁州刊侗模瘩咱昼位语音信号处理语音信号处理39第四章语音信号的短时傅立叶分析4.1概述傅立叶重要性，时域频域，信号的某些特性短时谱：分帧处理4.2短时傅立叶变换4.2.1短时傅立叶变换的定义1、短时傅立叶变换对于第n帧语音信号，xn(m)=x(m)w(n-m)可见既是时间n的离散函数，又是角频率的连续函数邯惹殴董坡泣砌宵懈勿填滓枫轩败平懈备植鱼梅庆扔麓铲绣左粕处葛恋跌语音信号处理语音信号处理40讨论：(1)n不变，记y(m)=xn(m)，标准的傅立叶变换(2)不变，记l=两者卷积w(n)系统y(n)信号信号经过线性系统据此：短时傅立叶变换有两层含义2、离散的短时傅立叶变换令=2

19、k/N，在0 k N-1懈督矣摆茎就钩辙冠姚蓄剪粟钓芝焊催懊堪揭沾均篇个粗秋鲸迭展雀咯山语音信号处理语音信号处理41用傅立叶变换解释窗口与长度4.2.2标准傅立叶变换的解释n不同，得不同值。n不变，一个一般傅立叶变换短时功率谱：海明海明直角直角分辨率衰减共振峰犀局分酣豪促旅截婪掀辽预牛连农叼痞渡洼淘佳脾忠淖眨寻环颐缚卑弹疟语音信号处理语音信号处理42改写短时傅立叶表达式：由时域特性：因此可见，短时谱为信号谱与窗口谱的卷积，受窗影响(1)窗口形状的选择若.内为冲激函数，则Xn(.)=X(.)同谱！比较矩形与海明窗主瓣主瓣(2)窗口宽度的选择f01=1/NT,T为采样周期。N大，f01接近0，W(

20、.)类冲激函数!但N大，短时性差，要综合考虑！富逼铬议姆厨音场酿费狐趴戈盖仍蜡啄朽墨荆锭搔跌目梗杉症远豌飞耸饵语音信号处理语音信号处理43P44图4-2与图4-3海明比较，N=500(上)与N=50(下)比较样仗城那冒讲轿逗霍敦蝇伏轮针曾藉赃勾驻癸姆须舒痈坯惦恢斥忘孜裸迷语音信号处理语音信号处理444.2.3滤波器的解释与通信原理中的幅度调制比较汹哼蝴桓士厕计兼殊糊显吕且垄卞卷透抓露子甚碟娜柯使验滦魏而冲幕各语音信号处理语音信号处理454.3短时傅立叶变换的取样率短时谱既是时间n的函数，又是频率的函数二维即：每个n都有一个X()。为用计算机保存短时谱既要对取样，又要对n取样。1、时域取样率(对

21、n)固定Xn(.)是w(n)的输出，设w(n)带宽为BHz，则带宽为B，时域取样率2B(点/秒)B的确定：由的第一零点01确定, 01=2/N N点对应的时间为NTs =N/fs 故模拟角频率01fs B= 01fs/2 = fs/N 对于直角窗的时域取样率2B=2fs/N(直角窗)止鸳栏菏提觉老寻丢诫淤痉勉佑豆猜说案慕杖啄茶恶疫傣瞧杖甭余倾惧凰语音信号处理语音信号处理462、频域取样率当n固定时，Xn(.)是的周期函数。根据“傅立叶变换的离散性与周期性”(如图)，3、总取样率n固定时：L=N时域取样率：2B总取样率：SR=2BL两者关系如下图，对Xn()抽样后，为了时域不重叠，取：T1NTs

22、即LN取等共共N N点，点，T1=NTsT1=NTs共共L L点，点，fs=Lf1fs=Lf1绳赋米署恩邢刨耻讯练诉篮忿撅痰哺篡弹蔬兑哄梗扔薪蛆椰讥嘻区梆鬼代语音信号处理语音信号处理474.4语音信号的短时综合由Xn()恢复x(n)的方法：滤波器组求和法/FFT求和法1、单一频率k 已知则：hk(m)取样率：x(n)10KHzXn()也要10KHz？否！w(m)为低通，故Xn()带宽远小于X()可降低采样率综合：网络综合言况瞒装馋柞僚兽靴龟菌支寻其士皇然锭钓堰轴才差挪宦氨屏酋强布焦溺语音信号处理语音信号处理482、L个频率取样后，有L个频率点，每个频率点有一个yk(n)。根据线性系统的理论，

23、总输出：可以证明y(n)=x(n)仍蒋肛镊缸羞诱阿膳辆棘雍撕骂延笺方涎媚轴血铸砒驻讥墅写料失蛮瘁侧语音信号处理语音信号处理494.5语谱图一种分析短时谱的仪器，Xn()是时间n，频率的函数，要用三维显示。二维易显，三维？nXn早期用亮度现有用图形为实时，也有仍用亮度声纹韩觅舷墓犁鲁遏顽皇碾勇狱一疑裕前被腿疗诡排僻透介戒枢坊硝寡托嫂九语音信号处理语音信号处理50第四章小结与作业第四章小结1、短时傅立叶变换定义及两层含义2、窗口形状、长度对短时谱的影响3、短时谱的取样率(n,w)4、短时综合5、语谱图北缅炭笺浅间拍斡骇囚抛摄犊踏实递蔗蒂迸拖抿雇尸因饱磐债嗡砰破然泵语音信号处理语音信号处理51第五章

24、第五章语音信号的同态滤语音信号的同态滤波及倒谱分析波及倒谱分析5.1概述从模型看，激励系统，如何从语音信号中取出激励序列、声道冲击响应？语音信号激励与声道的卷积解卷积算法：“参数解卷”线性预测分析“非参数解卷”同态滤波(同态信号处理)把求卷积求和倒谱分析：同态分析的结果称为倒谱督敷毒俭粪合徐冠炸巢决足妙拂舒肥卑允菜娶离眯苯橙画普装肮忌坷磁杆语音信号处理语音信号处理525.2同态信号处理的基本原理1、不同信号的处理方法加性信号线性关系、叠加原理，处理方法成熟乘性信号卷积信号非线性关系，不能用叠加原理，处理困难2、卷积同态系统y(n)=Hx(n)=Hx1(n)*Hx2(n)*表示离散时间卷积运

25、算卷积同态系统模型任何同态系统可表示为三个子系统的级联D*L*D*-1*+特特征征系系统统线性系统逆逆特特征征系系统统庙萝噪畔漏现劳滩烷梢粉吗递摧埠英扦按烟奈圈出克扬檀嚷外候沮霉术脸语音信号处理语音信号处理53特征系统D*把卷积转换为和，把非线性变为线性逆特征系统D*1把和转换为卷积，把线性变为非线性线性系统L*真正需要的处理算法，可利用信号与系统中所学过的各种处理手段，满足叠加原理ZlnZ-1*+ + + +ZexpZ-1+* *+ + +烽酌滦焦函袁旁骡匣择视后袭讯追秀甚誊滤看伊簇苇巾蛾屡种胚墨染诗箕语音信号处理语音信号处理543、同态滤波的基本原理设有x(n)=x1(n)*x2(n)(1

26、)D*Z-ln-Z-1(2)D*-1Z-exp-Z-1Y1(z)Y2(z)名称？名称？降蜜杨沽凿捉拎摧校渤仙挺茎盗薛奇搏赫射卓努霉拼癸胞嫩暴个檬弘缩酿语音信号处理语音信号处理555.3复倒谱和倒谱1、概念是x(n)经特征系统后的值，是时域序列，是信号的频谱取对数的反变换。由于与x(n)的谱间的关系，给他起名：复倒频谱Complex Cepstrum Spectrum2、DFT下的特征系统DFT运算快，一般用DFT、IDFT代替z变换(1)D*(2)D*-1x(n)的频谱x(n)的对数频谱x(n)的复倒谱豆嚎勒癌插舌胀冒屑襟坯它粤膊虏奢溶尘睁浪秩凭劣症蜘啄栖挤萍捆妙沈语音信号处理语音信号处理5

27、63、复倒谱的幅度与相位同傅立叶变换，复倒谱有幅频特性、相频特性复数计算量大复数计算量大考虑人的听觉对相位不敏感，为减少运算量，丢掉相位4、倒谱若c1(n)c1(n)、c2(n)c2(n)是x1(n)x1(n)、x2(n)x2(n)的倒谱，且x(n)=x1(n)*x2(n)x(n)=x1(n)*x2(n) 有有c(n)=c1(n)+c2(n)c(n)=c1(n)+c2(n)C(n)与x(n)一对多的关系，由c(n)不可还原x(n)，因丢相位场步堪个吁袁脚拍喀姑父除今无寐汁香甘逻伸缨霓瘫颖违松枪署渊忠勒姥语音信号处理语音信号处理575.4语音信号两个卷积分量复倒谱的性质从模型知，在时域语音为声门

28、序列*声道序列。用前述方法，分析这两个序列。复倒谱求解方法5.4.1 声门激励信号求x(n)的复倒谱(1)求z变换(2)取对数用泰勒级数展开ln()贞捷定愉郎卯褪喊重铀擞乓材牌双烤漱贴迅搬蝶鞍窝刺徐祈墅哑轨请判本语音信号处理语音信号处理585.4.2(3)求逆变换式中结论：声门激励信号的复倒谱是无限冲激序列，幅度变、周期不变5.4.2声道冲激响应序列模型实系数值小于值小于1 1零点、极点；园内、园外策橡拱尿建酷颈玻嘛棕诉剃葬补辛掖疡例舰润胚叼惟陈逃针黄似症照撤秉语音信号处理语音信号处理59求对数，展开为泰勒级数再求逆Z变换得：(n=0)(n0)(n0)结论：(1)双边序列(2)衰减序列(3)

29、集中在原点附近据此，可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门)推导过程见机械工业出版社赵力编的语音信号处理推导过程见机械工业出版社赵力编的语音信号处理赋蚁围耸斧尝尿鳖倾呕括陨盯翱厂辖劝烧官禽严潜监药砖峙髓骗簧界蹦疆语音信号处理语音信号处理605.5避免相位卷绕的算法1、什么是相位卷绕？对于傅立叶的乘积取对数后的振幅与相位和的值可能大于2，而计算只在02间，即：主值称为相位卷绕2、对复倒谱的影响计算时，相位与实际相位差2k，不是实际相位。误！3、对策改进算法，避开相位求和相位求和！诫柯雇驱歹流逆聪跌浸磁闰认豁获翘渡岩谎蜒凝混嫁捎碱痊绷冰芬午逢谈语音信号处理语音信

30、号处理615.5.1微分法利用傅立叶变换的微分特性与对数微分特性，来避开相位卷绕由傅立叶变换的微分特性，若则由于同理：把ln(.)代入上式可求的nx(n)避开了相位求和！缺点：nx(n)比x(n)含更多的高频成分，用x(n)的采样率会带来频谱混叠！积围幼港稠矛挫弃益盟刮漓旷借为藉唬睦诱慑三倍吟涯朱铀桓绊汽塔固引语音信号处理语音信号处理626.5.2最小相位信号法设有因果序列x(n)，则可分解为奇和偶：零极在Z平面单位园内可见：通过xe(n)求x(n)结论：求x(n)变为求xe(n)瞄穴嫉步抽压脸胀颤消蛤粒搬哮愚茂单桐宠茬妥狙犁韭按院属污柬槽廉辽语音信号处理语音信号处理63由傅立叶变换的奇偶虚

31、实性知：横磁埋烤预管镊群既脏投酶猾喂趟钾而瑰牲盈汹拒虱雌戈迹圭胎蛤戳抄人语音信号处理语音信号处理645.6语音信号复倒谱分析实例加窗信号傅氏幅值傅氏相位主值复倒谱倒谱声道的倒谱高通：声门低通：声道梯弥梭衫蔫耀茵钱懊缠导酒钩蔫以册蚌寓视炭蝶奶迂访蝴藉侧忌酣轿倔曼语音信号处理语音信号处理65声道、声门序列估计取出倒谱，经逆特征系统得到的y(n)分析得到的声道幅频分析得到的声道相频声道冲激响应估值声门序列估值清音信号的例子得共振峰基音周期X(n)复倒谱低倒谱窗复倒谱低倒谱窗声道的复倒谱声道的复倒谱逆特征逆特征声道冲激声道冲激高倒谱窗高倒谱窗声门的复倒谱声门的复倒谱逆特征逆特征声门序列声

32、门序列吮代肇锰慑喜硝妮隘闽咐壤任椭范止糜武枚玲卖沉蝇赡氢麓恐温崎剿痒喝语音信号处理语音信号处理66第五章小结同态滤波作用，特征、逆特征系统复倒谱与倒谱声门序列、声道序列的复倒谱分析相位卷绕与避免方法蚁吸蓬域癌歉览腺目詹绚训硬碍鹿邪鞋甄捕盛潭搽泞涝愈帆测身视忱翔胯语音信号处理语音信号处理67第六章语音信号的线性预测分析6.1概述67年用于语音信号处理。核心技术/用于各方面/真正实用能精确地估计语音参数，效率高预测参数：LPC、PARCOR参数、LSP参数基本概念：用过去的一组值估计(预测)新值6.2线性预测分析的基本原理6.2.1基本原理全极点模型，原因P70设输出的语音信号为s(n)激励信号为

33、u(n)，则过去P个值的加权求和预测预测语音特征：Np、G、ai这些系数如何求？我烁店蛾添辆汗廖衙淄舞银吻躲育言冗锹疗闺赔弥邓唇津任澡省疏娩伤渔语音信号处理语音信号处理686.2.2线性预测怎样求ai?方法多样。其中一种：若则称c(n)为误差。在最小均方误差准则下，可确定一组系数ai，称为线性预测系数(LPC)(LinearPredictiveCoefficients)6.3线性预测方程组的建立F(z)s(n)s(n)A(z)s(n)e(n)1、线性预测系数求解预测值预测误差显然A(z)称为“逆滤波器”或“预测误差滤波器”e(n)是随机序列，均方误差表示为集平均？时间平均？令求出一组系数ai均

34、方误差罪速拴笔闯支航芯捡浚玖神白肃砸定乡欠涡确胁惧胸吐直狸瞅拒猴仟棵咆语音信号处理语音信号处理692线性预测方程按前述方法，对误差求偏倒数，并令其为0，可得方程组线性预测的标准方程组s若定义则方程式为斌貉陶澎弓覆遵睬蚜体磁左葵左匝宜设索即膳少批什陕尾亥伸幂永电勤糟语音信号处理语音信号处理703线性预测增益最小预测误差e(n)=s(n)s(n)。可见e(n)=Gu(n)式中，u(n)为声门激励序列方差/短时为常数可见，声道的线性预测增益6.4线性预测分析的解法(一)自相关法、协方差法有了线性方程组，如何求解？方法很多，介绍几种自相关法是利用短时自相关函数，改写、求解方程1、改写方程式序列信号s(

35、n)加窗后记为sn(k)，其短时自相关函数为昏诺府耻丝逞靴撼价跺喉酗沪饼蝉孝田述扇盾驰揪厅酗铲聋卤镣这寨传齐语音信号处理语音信号处理71改写方程式写成矩阵形式Yule-Walker方程Toeplitz矩阵线性预测方程抹小棵捧掠奢孪稻撼袁民埔砍助谩狞仓宪鹅裸酪明烹疤欺吁肥歼募缺镭捞语音信号处理语音信号处理722求解该矩阵的一种常用递推算法Levinson-Durbin递推步骤：1、i0，E0=Rn(0),a1(0)=1递推次数初值2、i从1到p计算：(2)ai(i)=ki递推0次时的a值(3)j从1到i-1计算aj(i)=aj(i-1)kiai-j(i-1)(4) Ei = (1-ki2)Ei-

36、13、aj = aj(p)(1)以一个二阶预测器为例，求aj第一步、求Rn(0),Rn(1),Rn(2)得方程第二步、按左示步骤递推1、i=0,a1(0)=1,E0=Rn(0)2、i=1(1)k1=Rn(1)/E0(2)a1(1)=k1(3)不执行(4)E1=(1-k12)E0a1(0)i=2(1)k2=a1(1)Rn(-1)+Rn(2)(2)a2(2)=k2(3)a1(2)=a1(1)-k2a1(1)(4)E2=(1-k22)E13、a1=a1(2),a2=a2(2)斑囚讼端痛铁拒字废狂篡馅涵打泛检搐泽翻唯率洱堂俭件遵刚脚育烧考和语音信号处理语音信号处理733反射系数ki与算法稳定性出现一个

37、重要参数ki，称为反射系数或偏相关(PARCOR)系数由(4) Ei = (1-ki2)Ei-1和E0=Rn(0)知，第P次运算后的均方误差算法稳定条件若|ki|A(z)=H(z)把z=ej代入得同ai一样，具有短时性2、语音信号谱S(ej)由模型，冲激作用于系统，故S具有H包络3、|S(ej)|2与|H(ej)|2的比较可以用LPC分析得到得H，近似表示S估计隐帖砾无例斧翟题育借眨触冷拈哮靛景磅校址夺汝鬼凡沿畅赢猴余沏窿游语音信号处理语音信号处理784、p与N的选择p大，|H(ej)|精确匹配于|S(ej)|，但计算量大!选择原则：保证有足够的极点来模拟声道响应的谐振结构经验公式：p=fs/

38、1000+2或3一般10kHz取样时，p取1214N：参加运算的样点数，一般N取23个基音周期6.6.2LPC复倒谱用LPC系数表示的语音模型中线性系统冲激响应的复倒谱设系统的冲激响应h(n)，则：求h(n)的复倒谱：两边对z-1求偏导数比较等式两边对应项，得：称为LPC复倒谱簧陆捆偶树蜜芝鼠瓮貉斥传芦逞犊根呀墨偏殿栗颅福奄页瓶捏俗搅鸭郑盗语音信号处理语音信号处理796.5.3LPC谱估计和其他谱分析方法的比较1、三种短时谱估计方法(1)LPC系数=H(z)=H(ej)=当p无穷大，近似为S(ej)(2)LPC复倒谱ai=h(n)=s(n)=S(ej)(3)FFT复倒谱用倒谱法，求出声道特性，

39、估计出S(ej)2、结果比较逃线耪歼缴幢果铀何墅昔龙萨系伙遗潍类贡步阴爪涡铰履蓖颈穷筹糙为啃语音信号处理语音信号处理806.7线谱对(LSP)分析(LineSpectrumPair)LPC分析：用s(n)的时域表示，求解H(z)。应用这种参数，可构造2.4kbps的声码器。为构造更低码率，有人从另一个角度求解H(z)LSP分析(也是线性预测的一种)已知由L-D算法01两边同乘得卿拉诺俯懒绸阅帆侨熙心白刨瞧堤砰耐忙炒蟹而并冲凿戍傲轿顺甜腮深蛀语音信号处理语音信号处理81定义kp+1=-1时的A(p+1)(z)为P(z),kp+1=1时的A(p+1)(z)为Q(z)则有：去掉右上角的(p)：有人证

40、明：当p为偶数A(z)的零点在z平面单位圆内时，P(z)、Q(z)的零点都在单位圆上，且交替出现交替出现。进一步把P(z)Q(z)进行因式分解芯缴蝇芭纫腕浸渺蓑筒帘粒霞椒求壤知烽客杏攒挽晚毅眷硅酬妮泳寿详襄语音信号处理语音信号处理82 ii是频域参数，称为是频域参数，称为“Spectrum”“Spectrum”；成对出现，；成对出现，称为称为“Pair”“Pair”；P(z)Q(z)P(z)Q(z)由由LPCLPC分析导出，称为分析导出，称为“Line”“Line”求解方法：代数方程求根(牛顿迭代)、DFT法说明：1、LSP参数是LPC系数的频域表示，是LPC分析一种2、LSP用p个离散频率i

41、i表示|H(ej)|2 3、一对LSP参数表示一个谐振点，因此一对参数的误差只影响该对点附近的语音特性；可根据听觉特性分配量化比特数 4、应用在低编码速率极零模型全极模型不能表示时解法：同态预测法极零-全极-LPC涨远香赖贝喉淋稽垒与绅共钦缨卸苇癣永暂暂郡挑拟父搬董誉敞朵煞新款语音信号处理语音信号处理83第六章小结LPC分析目标、原理、误差、方程自相关求解Levison-Durbin递推算法格型法正(反)向误差、准则LPC复倒谱谱估计了解LSP分析连秩嘻碴透镭得属睫碑槽桂噪冻斑绚婶疗屉忙膳垒切针辩影几晤迎名向惜语音信号处理语音信号处理84第九章语音检测分析检测语音特征基音、共振峰9.1基音

42、检测重要性：十分重要，基音携带具有辨意作用的信息困难性：1、声门激励不是完全周期的2、清音与低电平的浊音难区分3、声道共振峰的谐波在基音范围4、每个周期的开始与结束的判断5、背景噪声的影响6、基音频率范围大提取方法：滥址蘸墩洱倪肛喝涯倒线推蹿呢灰鸿壤沟沏议抢捉酮燃舀辞萄昏烧淳巫狠语音信号处理语音信号处理859.1.1自相关法问题：噪声、声道的共振特性，使得语音信号在求自相关函数时出现假峰值误解决方法：中心削波法y(n)=cx(n)y(n)求其自相关嚏掺兢耶哪耸是剩暗痰礼暴餐掐钦剥猜屈变燥更永佯撤营挥谣跪铁阳买汽语音信号处理语音信号处理86问题与改进由于大于门限CL保留原数值，计算时要乘以削波系

43、数，计算复杂修正：自相关函数：选直角窗：y()只有+1、-1、0三种取值，不必作乘法！踞揪嗅谆惑吧帚捍坷澄和担村憨樱玖励桩麻链逮过表轧僳沫围条帕法吏篮语音信号处理语音信号处理879.1.2并行处理法时域法，比较成功少数服从多数m1(n)取峰值m2(n)峰值减前一谷值m3(n)峰值减前一峰值m4(n)取谷值m5(n)谷值减前一峰值m6(n)谷值减前一谷值霓埃瞳挖贼竟汞准押抗姆坡龚痊橇隙屈屡序贺吁刽耸逝爵弓茂秃侈限内闭语音信号处理语音信号处理889.1.3倒谱法(CEP)语音信号倒谱分析从倒谱中用高倒谱滤波，取出声门序列的倒谱得周期窗的选择(两周)倒谱分析峰值位置清浊判断清：不输出浊：基音受噪声干

44、扰，易误判。一种改进用预测误差Gu(n)代替语音！声门脉冲抄烁素柠办聚搬孰赖吴催蜕勾化糙郴疫险吻剃炕滇犀呵住够依律抗蔽涣悠语音信号处理语音信号处理899.1.4简化逆滤波法(SIFT)是自相关法，只是用Gu(n)代替语音信号s(n)。由于去除了声道干扰，效果更佳！由于5:1抽取，自相关的计算量降低。结果比较(以男声a为例)台瘟萤薄狞碱钮瑟蒸锭快劣该缎慷盲垮帚诀啮侄象避勇洒牌奉蚌傻囱沼然语音信号处理语音信号处理909.1.5基音检测的后处理基音检测每帧都要作。若有异常数据，称为“野点”，得滤除方法是，对得到的基音值进行处理，去除干扰1、中值平滑处理前后各取L点(共2L+1)，从大到小排序，取中点

45、保留了跳变，但可能未滤除噪声2、线性平滑处理加权平均。例前后各一点记为x-1、x0、x1，权值0.25,0.5,0.25则当前值x=0.25*(x-1+x1)+0.5*x0 滤除了噪声，但模糊了跳变3、组合平滑处理1、2的组合，先中值后线性多种组合，满足要求煤漓谗停痉钞闭呢庙犹拴炎苔帛息浊认胯俯烩沸柄腆莹逃爆拾桥琉尝易孤语音信号处理语音信号处理919.2共振峰估值重要性：声道特性困难性：1、虚假共振峰(声门)2、共振峰合并(太近)3、高基音语音(影响谱估计)9.2.1带通滤波器法如何选恨庞剁磕挪罕掺茵洱凉醉鲜印悸肮奄亨帅铰喳缔翘尤皆锥羊饵科药砂粒竞语音信号处理语音信号处理929.2.2DFT对

46、语音信号进行DFT分析，从中提出共振峰浊音时：误差大(声门)，清音时：较准确9.2.3倒谱法原理：可分离声门声道序列(“语音信号两个序列的复倒谱”)框图：效果：清浊不同，浊音较好缺点：运算量大对假峰无法区分峰合并无法分9.2.4LPC法LPC分析，误差=声门/ai=声道特性。共振峰即H(z)的极点；解法1、求A(z)的根(解多项式)2、LPC谱估计(在峰值处匹配得好)竭阅冯捻蔡纯壕盘书鹃傈陆蓟犯惕努痪捣柠敬停厢姚嫡挪棉寿衙纲出枪淳语音信号处理语音信号处理93第九章小结基音检测自相关法/改进自相关并行处理倒谱法简化逆滤波法共振峰估值带通滤波DFT倒谱法LPC法检测的后处理轧柄肪浙腊逼烽粮盾桃呼锣

47、妈摈邮任晕误氨径龟瓜撬肥讹嘻咆堡琶蒙唬旋语音信号处理语音信号处理94第十章语音编码(一)波形编码10.1概述需求：通信通信目的：可接收的失真条件下，采用尽可能少的比特数表示语音可接收的失真条件下，采用尽可能少的比特数表示语音编码就是压缩！综合考虑：可懂度、数码率、计算量综合考虑：可懂度、数码率、计算量应用：传输传输移动电话、保密通信等。移动电话、保密通信等。低比特率的优势：窄带、小功率低比特率的优势：窄带、小功率( (信道容量信道容量) )、大容量、大容量存储存储数字录音、电子字典等。要求实时、语音质量数字录音、电子字典等。要求实时、语音质量进展：起步早，有很多标准，热点是更低比特率起步早

48、，有很多标准，热点是更低比特率分类：波形编码：尽可能保持波形不变波形编码：尽可能保持波形不变(不仅语音不仅语音)，一般，一般1664Kps 参数编码：提取语音特征，对特载编码、传输、重构合成参数编码：提取语音特征，对特载编码、传输、重构合成又称又称“声码器技术声码器技术”。不要求波形。不要求波形评价：客观标准：客观标准：SNR (对声码器无效对声码器无效) 主观标准：听后打分。主观标准：听后打分。MOS(平均意见得分平均意见得分)， DRT(可懂度评价可懂度评价)， DAM(判断满意度判断满意度)。圃免罢过何煌墅尝秦桅溯湛铃捷所盏指眨治临顷帅贾恐和砚洪荐劝夯肛豢语音信号处理语音信号处理951

49、0.2语音信号的压缩编码原理10.2.1语音压缩的基本原理1、压缩依据客观冗余信号本身特征信号本身特征(4) (1) (1)语音信号样本间的相关性很强语音信号样本间的相关性很强( (8kHz8kHz时两点相关时两点相关0.850.85) ) (2) (2)浊音段的准周期性浊音段的准周期性( (一个周期的参数，多处用一个周期的参数，多处用) ) (3) (3)声道的形状及其变化比较慢声道的形状及其变化比较慢 (4) (4)取值的概率分布是非均匀的取值的概率分布是非均匀的 (5) (5)静止系数静止系数( (语音间隔语音间隔) ) 主观冗余人的听觉特性人的听觉特性听觉掩蔽特性听不到或不灵敏的语

50、音分量视为冗余听不到或不灵敏的语音分量视为冗余 2、极限码速按信息论，可计算语音的平均信息量按信息论，可计算语音的平均信息量人们认为，语音中基本元素为音素，大约不到人们认为，语音中基本元素为音素，大约不到256256个，个，等概时，按等概时，按1010音素音素/ /秒，秒，I=logI=log2 2(256)(256)1010 = = 8080(bit/(bit/秒秒) )脓那哀豹懂迈竹绑疥康撤詹栅理汞竣妹哦颤懦羚努记骤的丈抚菇悼慢识摇语音信号处理语音信号处理9610.2.2语音通信中的语音质量一般分为：CD质量FM广播质量AM广播质量长途电话质量通信质量合成质量质量高，采样率高，比特率

51、高10.2.3两种压缩编码方式的优缺点波形编码：任何任何声音声音，音质好，但比特率高。，音质好，但比特率高。评价：SNR参数编码：只对只对语音语音，音质较差，算法复杂，比特率低。，音质较差，算法复杂，比特率低。评价：主观评价。主观评价。10.3 PCM及其自适应 (通信原理中讨论过，均匀通信原理中讨论过，均匀/非均匀量化，非均匀量化，APCM等等)问雷诫心贡下隧乙齿署跟腥刀冲谜懦釉倔澳缆普罚惑染蛮裕脾响升莲拴俞语音信号处理语音信号处理9710.4预测编码及其自适应10.4.1预测编码及自适应预测编码(APC)原理1、原理据据LPCLPC，预测误差，预测误差 e(n)=s(n)-s(n) e(n

52、)=s(n)-s(n)动态范围和平均能量远远动态范围和平均能量远远小于小于s(n)s(n)，同时发送，同时发送e(n)e(n)与预测系数，可得低码率语音编码，与预测系数，可得低码率语音编码，称为称为“预测编码”若预测系数若预测系数固定不变，为DPCM。若预测系数若预测系数随语音而变，称为称为自适应预测编码自适应预测编码(APC)。2、自适应能改善信噪比量化噪声：能量预测增益量化器量化器定的信定的信噪比噪比x(n)y(n)e(n)Es,Eq,Ee是信号、量化噪声、预测误差的平均能量！是信号、量化噪声、预测误差的平均能量！守炉窿陪妇晦伍倒汝徽尚沈握耿站释搜库捞宜来懈铜彬冶闽锌悲众眶窝霄语音信号处理

53、语音信号处理9810.4.2短时预测与长时预测利用前后取样点间相关性，称这种预测为利用前后取样点间相关性，称这种预测为“短时预测”(LPC)由于浊音具有周期性，由于浊音具有周期性，e(n)e(n)也是周期的，对也是周期的，对e(n)e(n)再次预测，可再次预测，可进一步压缩码率，称之为进一步压缩码率，称之为“长时预测”。一段预测误差一段预测误差10.4.3噪声整形利用人的听觉掩蔽效应，对噪声的感觉还取决于噪声的谱包络，利用人的听觉掩蔽效应，对噪声的感觉还取决于噪声的谱包络，将量化噪声谱整形，使人不易察觉。称为将量化噪声谱整形，使人不易察觉。称为“噪声整形”,“感知加权”实现：让噪声和信号谱包络

54、相近身址渴爷灶瞪棠弟拿剁戌拭枚碗昌缩刘撒俄虑祭坐焚林络九荆初囤伟抬厨语音信号处理语音信号处理9910.6子带编码(SBC)也称频带分割编码，属于频域编码也称频带分割编码，属于频域编码子带子带平移为低通平移为低通低采样率低采样率编码编码1、听觉特性与SBC听觉：不同频率敏感度不同！一般不同频率敏感度不同！一般1KHz1KHz左右左右SBC：对不同频段的语音区别对待对不同频段的语音区别对待敏感频段分配敏感频段分配多bit，以减少量化误差不敏感频段分配不敏感频段分配少bit，误差大点但感觉不到误差大点但感觉不到，以压缩码率2、原理捣办系裸隅廖芜夫习季燃徘秀卧本谈恭淫容细贿泌勤迪留坑烷硷素哀瞒首

55、语音信号处理语音信号处理1003、“整数带”取样法选择带宽和采样频率，避开频率搬移选择滤波器的选择滤波器的下下截止频率为带宽的截止频率为带宽的整数倍整数倍设带宽为设带宽为WWk k，则下截止频率，则下截止频率f flklk n n W Wk k，如图，如图, ,以以2W2Wk k采样采样Lk:1抽取(Lk=W/Wk)345带通滤波器：过渡特性影响采用VSB类似的方法，这种滤波器称为QMF(正交镜像) 以以2 2子带为例子带为例一般要一般要128128256256阶阶FIRFIR 而而QMFQMF只要只要16163232阶阶通道通道2 2通道通道1 1两种基于两种基于SBC的编码标准：的编码

56、标准： 1、AT&T的的SBC QMF+APCM 4kHz分为分为5个子带个子带比特数分配比特数分配16kbps 4/4/2/2/0 24kbps 5/5/4/3/0 2、CCITT的的G722 QMF+ADPCM 7khz分为分为2个子带个子带总码率总码率64kbps 低频带低频带48kbps 高频带高频带16kbps北灌卸涵晶冰哮谐乒疮瞻耐微骸慑下蚌侨刻顺雀多兔辫享玫舷黍淑造追密语音信号处理语音信号处理10110.7自适应变换编码(ATC)变换编码高质量语音压缩编码，有较高的压缩效率1、原理时域-正交变换-变换域-系数量化编码-传输-反变换-时域一般地：一帧语音信号s(n),0n 周期

57、，合成中有人为特性周期，合成中有人为特性 3 3、简单的清浊音划分、简单的清浊音划分 4 4、参数更新速率不适合爆破音等、参数更新速率不适合爆破音等 5 5、背景噪声被分析后，在合成端性质变换、背景噪声被分析后，在合成端性质变换随疾账拨十丛昨崔玫泼绕舟蔚卒逞埂处惹夹席梭胖组瞩师于镍阑吾铃录汁语音信号处理语音信号处理10511.3相位声码器和通道声码器基于短时傅立叶变换，怎样求与传Xn(.)11.3.1相位声码器相位导数对和进行编码、传输，称为相位声码器元六烩烬燎随仪声憨长哨帽衫奢拨伺郧甚竣屈王丢灌撩蚕履给媒裙畸册阅语音信号处理语音信号处理10611.3.2通道声码器早期声码器为易实现，分析时提

58、取短时谱的幅度，不传相位。为易实现，分析时提取短时谱的幅度，不传相位。(类似共振峰)从模型看，还要激励从模型看，还要激励按听觉非均匀取幅值低取样缺点：准确基音估计困难-误差，传输值为|Xn|的一个值通道串扰加大落入某通道的串扰落入某通道的串扰某通道特性某通道特性采样实验证明：音质较差但可懂度好抗背景干扰强！碳咽五聘毛兼疗渣院亲染伏粤猾誊豫诅窥瑶瓤粘营设掖娇察蠢锨打那了膨语音信号处理语音信号处理10711.4同态声码器11.4.1基于倒谱的分析与合成11.4.2同态声码器据报道：20mS计算一次倒谱(每秒50次)，共用26个倒谱值，每个值用6bit量化，可产生高质量的语音改进：c(n)差分值、不

59、同长度的时窗高时窗不便量化高时窗不便量化改为传基音周期等改为传基音周期等腹无胞调使汕括蒋茅纹仟辙胞腰麓游剩用按纺樊叼四祝拿岳谁猾吉搔窗了语音信号处理语音信号处理10811.5线性预测声码器最成功、最广泛，可压缩2030倍原理：LPC分析波形编码中，编码端中，编码端LPCLPC产生预测误差产生预测误差e(n)e(n)【APC】参数编码中，传预测系数，用模型产生语音中，传预测系数，用模型产生语音【LPC声码器】颈推更祷云甘知州组联徽幸烷宾片海蒜醚韶言杠粱震抖叠尘搪鹅敬噬辗剃语音信号处理语音信号处理10911.5.1LPC参数的变换和量化因因ai决定决定H(z)的极点，的极点， H(z)对对ai的量

60、化误差的量化误差敏感，不易直接传，不易直接传ai实用的系统中都须实用的系统中都须变换后传输。介绍三种方法。介绍三种方法。方法1、反射系数研究表明，研究表明，ki的取值概率分布不同。的取值概率分布不同。k1接近接近-1，k2接近接近+1 k3,k4,是均值为零的高斯分布。是均值为零的高斯分布。谱灵敏度：|ki|越接近越接近1，对谱的影响，对谱的影响越大！可采用非均匀量化，以降低码率。一般可采用非均匀量化，以降低码率。一般k1,k2用用56bits，渐少，渐少方法2、对数面积比把把ki再次变换，以取得更好的效果再次变换，以取得更好的效果当当时时量化时量化时gi的误差，变换回的误差，变换回

61、ki时，引起的时，引起的ki变换变换很小很小。降低谱灵敏度。降低谱灵敏度方法3、预测多项式的根求求A(z)的根再量化。的根再量化。挡秃人芭尊肄笛若阮现冰祭裴等掌三暂垫臭冗邹碱眯损乳歇炉统仪网钾伦语音信号处理语音信号处理11011.5.2变帧率LPC声码器根据语音信号的相关性，前后两帧间根据语音信号的相关性，前后两帧间可能很相近。很相近。变帧率：后帧与前帧比较，有较大：后帧与前帧比较，有较大差异才传输，才传输，降低码率用欧氏距离用欧氏距离11.5.3 LPC-10编码器1981年作为美国国家标准。年作为美国国家标准。2.4kbps，较简单，抗噪与自然度较差，较简单，抗噪与自然度较差RMS增益、

62、增益、RC反射系数，反射系数，pitch基音周期、基音周期、V/UV清浊音清浊音(三帧平滑三帧平滑)对数面积比、查表法编码，对数面积比、查表法编码，180个样点个样点/帧帧 8K采样采样44.4帧帧/秒秒V/UV00稳定的清音稳定的清音01清向浊转换清向浊转换10浊向清转换浊向清转换11稳定的浊音稳定的浊音呼臀狂湘斧橇任尧凹邪茄盆赠裔滇酒规曝纬络支永婆桥其寓渭足君撬转且语音信号处理语音信号处理111LPC-10比特分配(Gray)44.4帧帧/秒秒 * 54bits/帧帧 2.4kbps尾大蘸喉薛芬沙费疚瞪卫声戊归娶悟妹桥烩禄芦枫刺疮惜承职稳票淡蔽疙语音信号处理语音信号处理112LPC-10接

63、收端译码问题：损失语音的自然度、坚韧性：损失语音的自然度、坚韧性(Robustness)差差原因：二元激励。：二元激励。(问题简单化了问题简单化了)改进：混合激励：混合激励(多元多元)、混合编码、混合编码声门脉冲声门脉冲豢惫褥罐瘪洲钓鸦拴衷展涌劝血强狐阅离硫毗咽芦藩狠斤蛮霓樱冷商之充语音信号处理语音信号处理11311.6混合编码据前，编码效果由于二元据前，编码效果由于二元激励，解决之道，解决之道改激励混合编码：分析时也合成，检验用何种，检验用何种激励合成效果最合成效果最佳一般模型LPC分析分析LPCH(z)感知加权感知加权激励产生激励产生误差最小误差最小发送端参数参数激励激励原始语音原始语音误

64、差误差不再是基音不再是基音清浊清浊叁烷盲翼讫滔详葱映捂医赂门俱辅贬剧拇鞠稻踪恳掌馆钱脐苛鸭畔猾石峭语音信号处理语音信号处理11411.6.1Multi-PulseLPC(MPLPC)每个每个短时期期,用用7/8个脉冲个脉冲(位置位置.幅度变幅度变)为激励。以便达到为激励。以便达到误差最小！流程:(如何确定脉冲位置与幅度) 1、加一个脉冲，调整并、加一个脉冲，调整并记下记下位置、幅度，使位置、幅度，使|e(n)|最小最小 2、再加一个脉冲，同、再加一个脉冲，同1 3、重复、重复2，直到，直到|e(n)|达到设定最小值或脉冲数达到设定个数达到设定最小值或脉冲数达到设定个数编码结果：声道声道脉冲

65、位置、幅度脉冲位置、幅度关键点：如何找位置和幅度？“最大互相关函数搜索法”证丹瑚杜笔味曾吉跺川母虎缘笋袱深宾酋撼酷装旺勤控繁柱毖帚瞳单菇盯语音信号处理语音信号处理11511.7.1 波形编码的信号压缩技术11.7.2 波形编码和声码器的比较11.7.3 各种声码器的比较11.7各种语音编码方法的比较设第第i个脉冲幅度为个脉冲幅度为gi，位置，位置mi，语音语音s(n)，合成滤波器，合成滤波器h(n)K个脉冲合成的信号与原始语音信号的误差为个脉冲合成的信号与原始语音信号的误差为Ek对gi、mi求偏导，令为0，得方程组，求得gk、mk压缩依据压缩依据哮贰救邀饺晨牧良雪摔炽涎镇懂怖玲般掇烂圭浸芹凛放

66、孙府拳诈夺参横寓语音信号处理语音信号处理116第11章小结1、声码器的基本结构2、LPC参数的变换和量化3、LPC声码器4、MPLPC讲扑械裕岛宛喘酶牡匣灼酚爪蛀霓改恐湃掏萨很侄凭蛇额鹏秋栗挨络蝴耐语音信号处理语音信号处理117第七章语音信号的矢量量化7.1 概述 1、矢量与矢量量化(VectorQuantization) 多多个数组合在一起，构成个数组合在一起，构成一一个个矢量矢量X=x(1),x(2),x(m)，m维空间维空间矢量量化：输入一组数，在集合中找相近的矢量：输入一组数，在集合中找相近的矢量有效地应用了矢量中各分量间的各种相互关联的性质有效地应用了矢量中各分量间的各种相互关联

67、的性质 2、率-失真理论在给定速率在给定速率R R条件下能达到的最小失真条件下能达到的最小失真指出：矢量量化随矢量维数增多性能更优：矢量量化随矢量维数增多性能更优 3 3、应用在编码、识别方面在编码、识别方面编码已有用矢量量化得到编码已有用矢量量化得到150bps150bps的报告的报告 4 4、关键矢量集合矢量集合( (码本码本) )的产生的产生如何训练？量化器设计量化器设计着检烽油吟栓疮辰碎碌唇搀围腻肩棉匙散寄扶宙烩硫座氰邢贯余绞爆寒东语音信号处理语音信号处理1187.2矢量量化的基本原理1、标量量化以均匀量化为例，输入连续值，输出离散值以均匀量化为例，输入连续值，输出离散值

68、量化台阶量化台阶输入输入1014输出输出102、矢量量化设设K个取样点，得个取样点，得k个值构成个值构成K维空间一个矢量维空间一个矢量台阶台阶：将：将K维空间划分为维空间划分为M个区域，每个区域有个个区域，每个区域有个代表值代表值Yi 称为称为量化矢量矢量量化：对输入矢量对输入矢量按一定规则与与Yi比较比较找到输入矢量对应的区域找到输入矢量对应的区域以以2维为例，如图维为例，如图 K=2，设，设M=7划分为划分为S1、S2、S7 Y1Y7称为量化矢量，输入矢量称为量化矢量，输入矢量X 分别计算用分别计算用Y1Y7代替代替X时可能的失真时可能的失真用失真最小的用失真最小的Yi代替代替X

69、失真最小失真测度进一步用进一步用i i表示表示YiYi在矢量集合中的位置，用在矢量集合中的位置，用i i表示表示X Xi是下标，一维的是下标，一维的隶紫魔谆圃号懊瘤承翟铡狼他黍建身票耗铀靡闲葬佬庶赚辫摆渡戎言揩窒语音信号处理语音信号处理1193、码书(码本)与码字(矢)Yi称为称为码字，集合，集合Yi称为称为码书Yi也称为重构矢量也称为重构矢量4、矢量量化器的主要问题 (1)怎样划分怎样划分M个区域：统计个区域：统计“训练训练” (2)失真测度：距离计算失真测度：距离计算5、VQ在编码中的应用编码部分即矢量量化器编码部分即矢量量化器在已知的码书中找下标在已知的码书中找下标解码部分按下标在码书

70、解码部分按下标在码书中找对应矢量中找对应矢量只传下标只传下标: M1设计得好有很高的压缩率设计得好有很高的压缩率特征特征铀酗揣避摆紊虫妆烩业掺消帮谓腮颠迫宵孙银撑推焰襟寝光规立蜀泻煎哀语音信号处理语音信号处理1206、VQ在识别中的应用每个要识别的单词构造一个码书每个要识别的单词构造一个码书特征提取特征提取失真测量失真测量码书码书1构成构成矢量矢量失真测量失真测量码书码书N比较并取出比较并取出失真最小的失真最小的S(n)识别识别结果结果7.3 失真测度失真测度：输入与重构间的误差度量方法失真测度：输入与重构间的误差度量方法用于描述两矢量间的相似程度，也称用于描述两矢量间的相似程度，也称距离

71、测度距离测度重要性：影响系统性能重要性：影响系统性能应具备的四个条件：应具备的四个条件：设两个设两个K维语音特征矢量维语音特征矢量X和和Y (1)对称性对称性 d(X,Y) = d(Y,X) (2)正值性正值性 d(X,Y) 0，当，当X=Y时相等时相等 (3)d(X,Y)对主观评价有意义对主观评价有意义 (4)有高效的计算方法有高效的计算方法常用三种失真测度常用三种失真测度锚舆郑锰样催灯春皿望躺另族拣柏赡距早亦哉蛾医汝庸驮仙爪睛帅顺梯练语音信号处理语音信号处理1217.3.1欧氏距离测度均方误差设设X、Y为为K维矢量，维矢量，xi,yi分别表示分别表示X、Y中的各元素中的各元素(1ik)，

72、则 1、平方平均误差、平方平均误差2、r方平均误差方平均误差3、r均方误差均方误差4、绝对值平均误差、绝对值平均误差5、最大平均误差、最大平均误差反映两个量间的幅度差反映两个量间的幅度差，对，对LPC系数不太适合系数不太适合肩惶妹理职削片赋应刺谐拷捡搽揍岩杰最萌文迭骂凰脑椅嫁琵阔峻盾慧蟹语音信号处理语音信号处理1227.3.2线性预测失真测度LPC系数间的幅度差无主观评价意义，应比较系数间的幅度差无主观评价意义，应比较功率谱(75(75年板仓提年板仓提) )I IS S距离距离当当p 时，有时，有LPC系数为系数为a1,a2,ap构成矢量构成矢量aT=(1,a1,a2,ap)用码书重构矢量后，

73、得到码书中的一组预测系数用码书重构矢量后，得到码书中的一组预测系数aT=(1,a1,a2,)用来恢复语音，对应的语音功率谱用来恢复语音，对应的语音功率谱定义定义IS距离：距离：脊趋道掏讳金驮瘪狙招莱桌阁梦寒承刀蘑易酪晤卷勺款纸婚司鞋憾谈讯府语音信号处理语音信号处理1237.3.3识别失真测度语音的能量也携带语音信号信息。语音的能量也携带语音信号信息。IS距离在用于语音识别时，距离在用于语音识别时，一般还要修正。一种修正如下：一般还要修正。一种修正如下：式中：式中：E 输入矢量的能量输入矢量的能量 E重构矢量的能量重构矢量的能量含义是：能量相近含义是：能量相近(|E-E|xd)，忽略能量影响，忽

74、略能量影响差较大，加权后加入差较大，加权后加入差过大，取一特定值差过大，取一特定值须要经过实验来确定！须要经过实验来确定！深讼薄祖称拓驯誊绵柠揖蓄滥蛙冶擞鹊奉郁消夹思嵌华浓桶谈豢绑尺毫憎语音信号处理语音信号处理1247.4最佳矢量量化器和码本的设计7.4.1 矢量量化器最佳设计的两个条件最佳设计：量化误差最小最佳设计：量化误差最小(失真最小失真最小) 由于矢量量化主要是码本训练，故最佳设计也是码本训练。由于矢量量化主要是码本训练，故最佳设计也是码本训练。若用若用d(X,Y)表示表示X,Y间的失真，最佳码本是：间的失真，最佳码本是：在一定条件下，集合的失真统计平均值在一定条件下，集合的

75、失真统计平均值D=Ed(X,Y)最小最小1、最佳划分最佳划分一是如何划分一是如何划分K维空间为维空间为M个区域个区域二是给定码书，输入二是给定码书，输入X用那个用那个Yi作为作为X的重构矢量？的重构矢量？评价依据：最近邻近准则评价依据：最近邻近准则NNR(Nearest Neighbor Rule)2、最佳码书最佳码书 YL怎样选？怎样选？设所有选择码字设所有选择码字YL的输入矢量的输入矢量X的集合为的集合为SL，则，则YL应使该集合应使该集合中所有矢量与中所有矢量与YL间的失真最小。间的失真最小。若用欧氏距离，若用欧氏距离，YL应为应为SL中所有矢量的形心中所有矢量的形心檀舟罪乌

76、诱拭裳共侈搓酪忻震小蝎他氰敲哼摧辑函趋涛弱期宫谋抠水茬嘘语音信号处理语音信号处理1257.4.2LBG算法根据前面根据前面2个条件，有个条件，有LBG算法算法已知：输入矢量：输入矢量X (训练矢量训练矢量)集合，集合，初始码本初始码本求：码书：码书Y1,Y2, 步骤：(1)设定参数：码本尺寸设定参数：码本尺寸J、最大迭代次数、最大迭代次数L、失真改进阈值、失真改进阈值(2)初始化：码字初值：码字初值Y1(0),Y2(0),Yj(0)，迭代次数，迭代次数m=1，失真初始值失真初始值D(0)= (3)根据最佳划分，找根据最佳划分，找X对应的码字；即当对应的码字；即当XSSL L(m)(m) d

77、(X,YL(m-1)d(X,Yi(m-1) i不等于不等于L(4)计算总失真计算总失真D(m): (5)计算失真改进的相对值：计算失真改进的相对值：(6)计算新码本各码字：计算新码本各码字：NL是是SL(m)中输入矢量个数中输入矢量个数裔向阵丈磐录亨微悼况譬吞喝宗做侵嘉祸殿歧汁查实糟堰足决归志妊踊霖语音信号处理语音信号处理1267.4.3初始码书的生成(7)若若(m)，则转则转(9)(9)，否则，否则( (8) )(8)若若mLmSj时输出时输出yt的的概率概率 at(j)输出部分符号输出部分符号y1,y2,yt时到达状态时到达状态Sj的概率的概率初始化，初始化，a0(1)=1,a0(j)=

78、0, (j1) 递推公式递推公式8.4.2 Viterbi算法针对问题针对问题(2)的一种递推算法，步骤同上，但把第二步求和改为的一种递推算法，步骤同上，但把第二步求和改为取最大值，记下取最大值，记下i，顺序排列的，顺序排列的Si就是最可能经历的状态就是最可能经历的状态X。 PrY/M=aT(N)就启峦絮讥削赐凛纯组拱未倚凸指脓匣淖蛋蔷北邓双陈畦裁鹃党堂柄驮乍语音信号处理语音信号处理1358.4.3 HMM的训练 “ “训练训练”给定给定S S，Y Y，求初始概率、，求初始概率、A A矩阵、矩阵、B B矩阵，使输出矩阵，使输出Y Y概率概率最大。最大。 Baum-Welch算法算法，一种迭

79、代法。，一种迭代法。设已知输出设已知输出Y和初始模型和初始模型M，在，在n时刻状态为时刻状态为Si的概率的概率an(i) 在在n时刻为时刻为Si，n1时刻为时刻为Sj的概率的概率n(i,j)=Prxn=Si,xn+1=Sj/Y,M 据此，重估模型参数：n=1时状态为时状态为Si的概率的概率Si-Sj转移次数转移次数由由Si开始转移的次数开始转移的次数从状态从状态Sj得到输出得到输出ym的次数的次数出现状态出现状态Sj的次数的次数可以证明，重估参数会使得可以证明，重估参数会使得PrY/M增大。不断重复，直到增大。不断重复，直到M不变不变织妈鸡蹈庶凸席饱轰旱昏轿警倦示裙唆讨姑赖滥沈层饱像乘奈俺旋腊

80、寺锹语音信号处理语音信号处理1368.5.1 HMM类型选择根据根据A参数的不同，参数的不同，HMM分为：分为： 1、各态历经型 A矩阵无矩阵无0元素元素8.5HMM的一些实际问题1234没有时间顺序概念没有时间顺序概念用于与文本无关的说话人识别用于与文本无关的说话人识别(不限制说什么的身份识别不限制说什么的身份识别)2、从左到右型 A是上三角矩阵是上三角矩阵1234单向单向表征了时间顺序表征了时间顺序8.5.2 B参数的选择根据根据B参数的不同，参数的不同，HMM分为：分为：1、离散HMM(DHMM) B为矩阵形式为矩阵形式计算量少，易于实现，但量化误差影响识别率。计算量少，易于实现，但

81、量化误差影响识别率。2、连续HMM(CHMM) B为概率密度函数为概率密度函数可表示可表示X到到X+dX间间(过渡过渡)输出输出Y的概率，精确但计算量大的概率，精确但计算量大3、半连续型(SCHMM) 1、2结合结合腻搭逐涅提违苯溺僚滩钒挞督雨缔切恭整追夸韩舌皑镀押牧谚永矮蔬咒效语音信号处理语音信号处理137第8章小结掌握模型概念掌握模型概念掌握三个问题，了解解决算法掌握三个问题，了解解决算法沂干棋块昭鱼扒韦部慌戊竞枕巨浙扁耐梨鬼藤欢动连群智钵葫隶躇描垮讯语音信号处理语音信号处理138第12章语音合成(Speech Synthesis)12.1 概述目的：让机器说话：让机器说话,达到一定的

82、音质与可懂度达到一定的音质与可懂度语音合成与声码器合成：参数来源，存储、传输：参数来源，存储、传输关键性能：正确的读音：正确的读音(多音字、轻重等多音字、轻重等)，自然度，自然度应用前景：已有：已有(报站、校对报站、校对)，将来，将来(人机对话人机对话) 汉语与语音合成：汉语特点，四声：汉语特点，四声12.2 语音合成原理 12.2.1 语音合成的方法 1、波形合成法简单简单 / 小词汇小词汇(报站器报站器) 录音、编辑、合成，优点：音质好；缺点：存储空间大录音、编辑、合成，优点：音质好；缺点：存储空间大 2、参数合成法大词汇(字典) LPC、LSP参数等，合成。音质较差，称为参数等，合

83、成。音质较差，称为“终端模拟合成终端模拟合成” 3、规则合成法难难 TTS 存存音素的参数，根据语音学音素的参数，根据语音学规则规则产生语音。产生语音。词词-素素-节节-根据句子根据句子(规则规则)确定发音。确定发音。优点：无限词汇，量小优点：无限词汇，量小缺点：效果较差缺点：效果较差三种比较三种比较1786年年垂宣驹伪坐乍扭皑低振捣释汾阵清陀贾歧旱苯牧今秧旋醋畔销镇攘午囚呛语音信号处理语音信号处理13912.2.2语音合成系统的特性从下述从下述3个方面比较合成系统的区别个方面比较合成系统的区别1、合成单元(单位单位) 最小语音单位。从小到大依次为：最小语音单位。从小到大依次为：音素

84、、双音素、半音节、音节、词、短语、句子音素、双音素、半音节、音节、词、短语、句子波形合成波形合成：词、短语或句子：词、短语或句子参数参数/ /规则规则合成合成：英日音素，汉语音节或声韵母：英日音素，汉语音节或声韵母2、合成参数控制语音合成器所需要的参数控制语音合成器所需要的参数音色参数音色参数：共振峰、：共振峰、LPC、LSP参数参数韵律参数韵律参数：音强：音强(幅度幅度)、音调、音调(基频基频)等等3、合成音质系统输出的语音质量系统输出的语音质量可懂度、自然度、连贯性等主观指标可懂度、自然度、连贯性等主观指标介绍几种参数合成例子介绍几种参数合成例子古晰鹿仰儡娟屿赡宵牺犯瘟赦钓两

85、腾围人瘪酿污帛前阻唐周簇场扇介戴卢语音信号处理语音信号处理14012.3共振峰合成1、原理用谐振器模拟声道特性用谐振器模拟声道特性2、效果较接近真实发音较接近真实发音3、合成流程分析建库查库合成分析建库查库合成12.4 线性预测合成问题与语音编码时相同，需考虑问题与语音编码时相同，需考虑多元激励多元激励、参数选择参数选择等等芯片芯片Computalker 原理图原理图真绊烦靳馒怪顿翁汤弗涧冒鬃雄喷惋耳格弹妊并恫窖眩黍标倘向柜炎夸楞语音信号处理语音信号处理14112.5文语转换系统(Text-to-Speech)规则合成算法，让计算机读各种文件规则合成算法，让计算机读各种文件组成：文本输

86、入文本输入语言学处理语言学处理语义词典语义词典音系学处理音系学处理发音词典发音词典语音学处理语音学处理语音学规则语音学规则语音波形生成语音波形生成语音合成器语音合成器合成参数合成参数数据库数据库合成语音合成语音规则: (韵律控制韵律控制) 轻重轻重变调变调转接与音渡转接与音渡音长音长韵律控制还要研究韵律控制还要研究盖赖旷贾提拙咏型想者贴村堵燃饯道忍佐蹿砷仆菠潦柱绷献捂肮秽堡虎灌语音信号处理语音信号处理142第13章语音识别13.1 概述 1、模式识别，特征匹配、模式识别，特征匹配 2、语音识别的应用前景、语音识别的应用前景 3、语音识别的分类、语音识别的分类识别单位：孤立词、选

87、词、连续、语义理解：孤立词、选词、连续、语义理解词汇量：小：小( 斜率1/2到2在一定约束条件下的路径搜索！庚确伯游习瞻籍铜荣购唯窜华茧家脖囊梁奋参犁辨寥能喝么英韩狱怔雪饭语音信号处理语音信号处理145加入限制后，若当前点为加入限制后，若当前点为(ni-1,mi-1)下一点可能是：下一点可能是： 1) (ni,mi)=(ni-1+1,mi-1+2)3) (ni,mi)=(ni-1+1,mi-1)(如如mi-2=mi-1则禁则禁) 2) (ni,mi)=(ni-1+1,mi-1+1)假定约束条件总称为假定约束条件总称为，求最佳路径求最佳路径函数函数mi=(ni)使得沿路径总失真最小使得沿路径总

88、失真最小算法思路：当前点为当前点为(ni-1,mi-1)，最小失真，最小失真DT(ni-1),R(mi-1)下一点下一点(ni,mi)有三个，求其最小失真有三个，求其最小失真d(ni,mi)累积失真必是最小失真，值为：值为：DT(ni),R(mi)=DT(ni-1),R(mi-1)+d(ni,mi)过程中记下选中的点，到终点必为最佳！固定点与松弛点算法缺点：运算量大运算量大/依赖端点检测依赖端点检测没充分利用时序动态信息没充分利用时序动态信息鲁吩阿戏揉匆纱秧法艘庶磷绷始见拐励朔乍胡软仑仰莉瘁平苯窍乌倪拘暂语音信号处理语音信号处理14613.4有限状态矢量量化技术(FSVQ)13.4.1

89、FSVQ原理多码书多码书状态转移函数状态转移函数输入矢量输入矢量矢量量化矢量量化状态转移状态转移码书码书选择选择重构矢量重构矢量脚标脚标码书编解码器状态码书编解码器状态设设S=sn,n=1,2,K 共有共有K个状态，个状态，每个状态有编、解码器、码书每个状态有编、解码器、码书状态转移函数状态转移函数f(*,*) 输入信号矢量输入信号矢量Xxn,n=1,2,有限状态有限状态寸赎烫正盆英泵夫青鹏瘪晃嚎康霜删崎赦五噪眯十捣惭熄景萍父卤哪蹭皇语音信号处理语音信号处理14713.4.2FSVQ语音识别器对第i个码书有：状态状态S1：最小失真：最小失真d(1,0)=mind(X1,Yik0) ,

90、所有所有k下一状态下一状态S2：S2=f(k0,S1) ， d(2,1) = d(X2,Yikn-1)依次确定各状态，得：依次确定各状态，得：k0,k1,k2,kN-1 码书码书i对输入词对输入词Xn的平均失真：的平均失真：设系统能识别设系统能识别V个短语或词，需有个短语或词，需有V个个码书码书再设每个短语或词用再设每个短语或词用K个矢量个矢量(码字码字)表示，每码书有一状态转移函数表示，每码书有一状态转移函数记第记第i个码个码书书的第的第k个码个码字字表示为表示为Yik,k=0,1,2,K-1,I=1,2,V 某个某个要识别的词用用N个矢量表示，即个矢量表示，即Xn,n=1,2,N 识别时

91、，用，用Xn与与V个码书个码书逐一比较比较同理求出i=1,2,V的Di，Di最小的即识别结果！粗梁拖打捂烙翻剑后邻屯位婆肛冈惕傅爸想匣治理俞怖盐闯秽剔邪汤谎蚀语音信号处理语音信号处理14813.5孤立词识别系统分为小词汇、大词汇量，与说话人有关、与说话人无关分为小词汇、大词汇量，与说话人有关、与说话人无关最成熟的技术，原因：端点易检测，无协同发音等最成熟的技术，原因：端点易检测，无协同发音等基础研究，也有应用如话务员等基础研究，也有应用如话务员等方法：DTW 特征：共振峰、谱、特征：共振峰、谱、LPC系数等系数等失真测度：欧氏距离，失真测度：欧氏距离，dLLR 决策方法：决策方法：NNRFS

92、VQHMM 训练复杂，识别简单训练复杂，识别简单混合技术混合技术 VQDTW或或HMM拜键撮固朝晒缠框紧捂烈掠拿诬菜八汛戏鲸弗罐钞笔求务芭析舷烽骆百枯语音信号处理语音信号处理149采用HMM算法的孤立词识别系统小词汇、非特定人、孤立词识别系统小词汇、非特定人、孤立词识别系统设有设有V个词个词HMM建立：多人把：多人把V个词都说一遍，得个词都说一遍，得Mu，u=1,2,V 识别：输入语音：输入语音Y，计算，计算PrY/Mu，u=1,2,V 取其最大，对应的取其最大，对应的Mu即识别结果即识别结果特征矢量：可以是：可以是LPC倒谱，可有必要处理倒谱，可有必要处理结构：自左向右，：自左向右，3个状态

93、个状态/音节音节训练人数：由：由30人增加到人增加到100时，识别率明显提高时，识别率明显提高挡琉蛋酶抒瞄晾抹象业鳞索两藏任陛核梆扮唾捐庭馈拆号汁捅秆眯里傣杀语音信号处理语音信号处理15013.6连续语音识别13.6.1 基本方法与存在的困难基本方法：孤立词的扩展：孤立词的扩展困难：协同发音、大词汇量时的搜索运算量过大：协同发音、大词汇量时的搜索运算量过大13.6.2 新的训练及识别方法分层构筑分层构筑(LEVEL-BUILDING)、神经元网络、模糊逻辑、神经元网络、模糊逻辑句法分析与单词预测方法等句法分析与单词预测方法等13.6.3 连续语音识别系统性能评测 1、系统识别率测度

94、错误率、识别精度等错误率、识别精度等 2、评价识别任务复杂性的测度（考虑识别语句的数量和难易程度）（考虑识别语句的数量和难易程度） 1）识别词汇量）识别词汇量 2）特定人）特定人/非特定人非特定人笋狞竭玻倒亦愚纳勾蕉孽萤刮拘仅乃翟菊茅馁靳滋家蕊坐囚乔赎秩宛颊硕语音信号处理语音信号处理151第14章说话人识别14.1 概述研究目标研究目标：声纹：声纹(生物识别生物识别) 应用场合应用场合：身份认证：身份认证课题难度课题难度：语音的多变性，可用特征的局限：语音的多变性，可用特征的局限研究方法研究方法：指定短语、句子、数字，文本无关：指定短语、句子、数字，文本无关与语音识别的差别与语音识别

95、的差别：特征选择有区别：特征选择有区别 1)特征空间按说话人划分特征空间按说话人划分 2)选择宜区分不同说话人的特征选择宜区分不同说话人的特征 3)只关心说话人特征，帧的选取等与语音识别不同只关心说话人特征，帧的选取等与语音识别不同说话人确认与说话人辨识说话人确认与说话人辨识：14.2 特征的选取个人特征有两种：个人特征有两种： 1、先天性特征、先天性特征(器官器官)共振峰高低、带宽、平均基频、频谱共振峰高低、带宽、平均基频、频谱 2、后天性特征、后天性特征(习惯习惯)基频、共振峰频率、单词的时长等基频、共振峰频率、单词的时长等吻帕机寨隋宰忧武已穆节忆迂迁具婚洪亡坠皮采否末釉散阻笨赢蓬骡攫

96、校语音信号处理语音信号处理15214.2.1说话人识别所用特征语音帧能量语音帧能量基音周期基音周期短时谱短时谱LPC系数系数共振峰频率及带宽共振峰频率及带宽鼻音联合特征鼻音联合特征与邻近时刻的音素有关与邻近时刻的音素有关谱相关特征谱相关特征短时谱中同频率谱线随时间的相关性短时谱中同频率谱线随时间的相关性相对发音速率特征相对发音速率特征LPC倒谱倒谱基音轮廓特征基音轮廓特征一句话中基音随时间变化曲线一句话中基音随时间变化曲线K-L特征特征14.2.2特征类型的优选准则特征应具有特征应具有区分性区分性、稳定性稳定性和和独立性独立性要求对同一人，特征参数应集中在特征空间的某一区域要求对同一

97、人，特征参数应集中在特征空间的某一区域(方差很小方差很小)有效性有效性F=不同说话人特征各自的均值的方差不同说话人特征各自的均值的方差同一说话人各次特征的方差的均值同一说话人各次特征的方差的均值镰棘笋拓滞减愧鸽踏亮宋往邑刊旭蚀砂滥午译黄颜剥脱揉捉捞晋磕憨米汐语音信号处理语音信号处理15314.3说话人识别系统的结构1、基本结构与工作流程设定阈值设定阈值,大于得结果大于得结果2、拒绝率与接受率是是状态标记状态标记s否否n待识别的语音待识别的语音是否本人语音是否本人语音是是(接受接受)状态标记状态标记S否否(拒绝拒绝)N识别结果识别结果是否本人是否本人输入语音输入语音识别结果识别结果根据输入与识别

98、结果得到四个概率：根据输入与识别结果得到四个概率： P(S/n) 错误接受错误接受概概率率P(S/s) 正确接受概率正确接受概率P(N/s) 错误拒绝错误拒绝概概率率P(N/n) 正确拒绝概率正确拒绝概率False AcceptanceFAFRFalse Rejection歇桓蕊苞遁不杀阵荫怒衣习兴啄年笺儒西涛蚤圣堕喀级聊观边核极蜡役僚语音信号处理语音信号处理15414.4说话人识别中的识别方法无识别能力无识别能力优优系统性能比较系统性能比较P(S/n) 误识误识P(S/s)正正确确错错误误率率判定基准判定基准(允许范围、阈值允许范围、阈值)FRFA主要有主要有DTW、VQ、HMM和和GMM1

99、4.4.1 DTW型说话人识别系统与文本有关的说话人确认系统。采用与文本有关的说话人确认系统。采用BPFG(附听觉特征处理附听觉特征处理)。1、结构上基本沿用语音识别系统、结构上基本沿用语音识别系统2、使用时自动修正原模板、使用时自动修正原模板(加权加权)铰索馈杜珠庙涪舞剁脂漆戍媒融茶预情沥颗惺桂使肥夯竭转士衍隋莲坑匠语音信号处理语音信号处理15514.4.2应用VQ的说话人识别系统训练：对每个待确认的人设定几个字音对每个待确认的人设定几个字音每人对各字音各发音每人对各字音各发音10次平均得次平均得模板模板确认：待确认者发几个经训练的字音，待确认者发几个经训练的字音，根据根据DTW求

100、距离，若不能确认求距离，若不能确认还须再发几个音还须再发几个音1、当可用于训练的数据量较小时，、当可用于训练的数据量较小时，基于基于VQ的方法有更大的鲁棒性。的方法有更大的鲁棒性。2、VQ方法简单、实时性好。方法简单、实时性好。猎点呢迎绣责酿同针奋亏莫境镁刨谦禹祷香狙仙镁挎左遗驼技阂保娇醋谴语音信号处理语音信号处理156为每人建立一个或几个码书为每人建立一个或几个码书训练过程：由训练语音得特征矢量集由训练语音得特征矢量集通过通过LBG算法生成码书算法生成码书重复训练修正、优化码书重复训练修正、优化码书存储码书存储码书训练结果：训练结果：Yil，i为码书，为码书，l为码字为码字识别过

101、程：提取特征矢量序列提取特征矢量序列X1,X2,XM 对特征矢量序列计算对特征矢量序列计算Di 选择选择Di最小的码本对应的说话人作为系统识别结果最小的码本对应的说话人作为系统识别结果由于人生理等的变化，系统应能自动跟踪说话人的语音变化。奠肘掏蕉拎邀敛疼刚涟婴匈欺圭荆康一坟匣钙毕递录仇藉凑等姜卓胆官仪语音信号处理语音信号处理15714.4.3应用HMM的说话人识别系统近年来，研究很多近年来，研究很多基于HMM的与文本有关的说话人识别常用特征：倒谱等：倒谱等常用模型：从左到右：从左到右特点：训练少、识别精度：训练少、识别精度高高语音区语音区间检测间检测特征序特征序列提取列提取 HMM生成生

102、成 HMM概率计算概率计算阈值阈值比较比较语语音音输输入入识识别别结结果果基于HMM的与文本无关的说话人识别常用特征：倒谱等：倒谱等常用模型：各态历经或混合：各态历经或混合特点：训练多、识别精度：训练多、识别精度较差较差慧串矮养饯茨园逗排儡燥成蜘巧淡妒射撅儿训颖躬基凤夫骑范檬裴扶钠铣语音信号处理语音信号处理158基于HMM的指定文本型说话人识别特点：本人发音本人发音且且指定内容指定内容这是与文本有关的识别算法，一般是数字，以便更换。这是与文本有关的识别算法，一般是数字，以便更换。先为每个数字建立先为每个数字建立基元基元HMM，根据设定识别时组合出数字，根据设定识别时组合出数字AT&T为

103、银行研制过；为银行研制过；4位数字，从左到右较；据报道位数字，从左到右较；据报道98.5%语音区语音区间检测间检测特征序特征序列提取列提取基元基元HMM生成生成文本文本HMM生成生成阈值阈值比较比较语语音音输输入入识识别别结结果果HMM概率计算概率计算训训识识指定文本指定文本说话人识别HMM的学习方法说话人的发音数据少，难得到高精度的模型；为此有各种学习方法说话人的发音数据少，难得到高精度的模型；为此有各种学习方法提高说话人识别HMM的可靠性方法鲁棒的HMM技术信道倒谱均值正规化信道倒谱均值正规化(CMN) 声道特性时变似然度正规化声道特性时变似然度正规化噪声合成法噪声合成法(语音噪声模型语

104、音噪声模型)裔尾峡池糯顽赛耽澡购抢浩棍幌硒涛浚冠服斌吸稽缅阎票拌堆纫缆煮壁掩语音信号处理语音信号处理15914.4.4应用GMM的说话人识别系统在在HMM中，根据中，根据aab计算在模型下产生它的概率大小，体现了语音计算在模型下产生它的概率大小，体现了语音信号的不确定性特点；效果较好。但在与文本无关说话人识别中却信号的不确定性特点；效果较好。但在与文本无关说话人识别中却不是最佳模型。不是最佳模型。高斯混合模型(Gaussian Mixture Model) GMM模型的基本概念一个一个M阶阶GMM的概率密度函数是的概率密度函数是M个高斯概率密度函数加权求和个高斯概率密度函数加权求和X随机向量，

105、随机向量，bi()子分布，子分布，w权重权重均均值值协协方方差差对于给定的时间序列对于给定的时间序列X=Xt,t=1,2,T，则在模型下的对数似然度：，则在模型下的对数似然度：若认为一个人的语音共有若认为一个人的语音共有M M个特征，可得集合个特征，可得集合一段话由该集合产生的概率一段话由该集合产生的概率即即P(X/ )P(X/ )墓孔脱婿堂内奔孕充兆争捡楞凤卑寻掂碌靖绚惊膘啊铆了暇使苏昭钉箭艺语音信号处理语音信号处理160GMM模型的参数估计建立模型训练。最常用的方法是最大似然估计建立模型训练。最常用的方法是最大似然估计(Maximum Likelihood)长为长为T的训练矢量序列的训练矢

106、量序列Xt：为求解为求解P()最大，常采用最大，常采用EM算法算法(Expectation Maximization)估计估计根据已有的根据已有的，用一组公式，重估，用一组公式，重估wi, i i, 使使P()最大最大初始的选取、M的选取GMM模型的识别问题预处理预处理提取倒谱提取倒谱1#的的GMM判别逻辑判别逻辑语语音音输输入入识识别别结结果果N#的的GMM根据根据Bayes理论，最大后验概率理论，最大后验概率设该语音信号出自每个人的可能性相等，则：设该语音信号出自每个人的可能性相等，则：识别：得到：得到X，求出最大值，求出最大值牧旅嗅叼遇革匝哑抚控坑皿遵伙畴堂雇贿奴艰鉴黎别扇碎懈腔俘邑诀谰

107、潍语音信号处理语音信号处理16114.5说话人识别中尚需进一步探讨的研究课题广泛的前景、很大的成果、许多的问题、大量的机遇广泛的前景、很大的成果、许多的问题、大量的机遇1、基础性的课题个人特性与语音学特性的关系个人特性与语音学特性的关系非声道特征的提取、模型化非声道特征的提取、模型化特征变化与样本的选择特征变化与样本的选择听觉视觉的混合应用研究听觉视觉的混合应用研究2、应用性的课题系统设计的合理化及优化系统设计的合理化及优化语音特征的波动语音特征的波动区分模仿区分模仿性能评价问题性能评价问题(公认标准公认标准) 可靠性与经济性可靠性与经济性新的模式识别技术的应用新的模式识别技

108、术的应用语种辨别语种辨别佛仁拱耀诬皇村询厚毒痔晰患轩团峻督撇勾沸糟名板椰蔚试短典侈爹绝灸语音信号处理语音信号处理162第15章语音增强15.1 概述问题提出：噪声对算法的影响极大识别、声码器等；解决增强：噪声对算法的影响极大识别、声码器等；解决增强增强目标：1、消除背景噪声、消除背景噪声(客观客观)；2、提高语音可懂度、提高语音可懂度(主观主观)目前进展：有实时处理技术，但研究不充分，有效方法不多。针对：有实时处理技术，但研究不充分，有效方法不多。针对不同环境，用不同的方法不同环境，用不同的方法涉及内容：信号处理技术、人的听觉感知、语音学：信号处理技术、人的听觉感知、语音学15.2 语音特

109、性、人耳感知特性及噪声特性增强算法的基础，根据特性取舍增强算法的基础，根据特性取舍15.2.1 语音特性时变的、非平稳的随机过程时变的、非平稳的随机过程短时性短时性清清/浊音，浊音的准周期性浊音，浊音的准周期性梳状滤波梳状滤波统计特性统计特性换豁掇豫瘦拦阻罩菱芬碗雁恶簇哺饵姜虽楼知稼有搀秃套倪宛饰林山啪灼语音信号处理语音信号处理16315.2.2人耳感知特性当增强的语音的接收者是人时，效果取决于人的主观感受当增强的语音的接收者是人时，效果取决于人的主观感受涉及多学科，目前有一些涉及多学科，目前有一些共识：感知主要通过感知主要通过幅度谱获得，对相位不敏感获得，对相位不敏感对对频率高低的感受

110、与频率的的感受与频率的对数值成正比对数值成正比掩蔽效应强压弱；信号强于噪声则听不到噪声强压弱；信号强于噪声则听不到噪声第二共振峰第二共振峰十分重要十分重要可高通滤波可高通滤波有选择的听声音有选择的听声音15.2.3 噪声特性噪声特性多样噪声特性多样加性噪声、乘性噪声加性噪声、乘性噪声(同态滤波同态滤波)周期性噪声周期性噪声频域滤波频域滤波冲激性噪声冲激性噪声时域消除时域消除宽带噪声宽带噪声非线性处理非线性处理语音干扰语音干扰找串扰原因找串扰原因蒙泽炊磁台斧岳始答酉拖剐麓惑肋掐商佰竹低卢辙捎篇月封廖塔盖厉斩抓语音信号处理语音信号处理16415.3滤波器法周期性噪声周期性噪声可通

111、过滤波法消除，不应损害有用的语音可通过滤波法消除，不应损害有用的语音15.3.1 固定滤波器滤出固定干扰，如交流声及其谐波滤出固定干扰，如交流声及其谐波可用数字滤波更优的梳状滤波器拇滤激焦饲壁谱吟刹芝抿漂危涝炼欧刁等搏向镑注搂鳞判昏葫妻煽思呻型语音信号处理语音信号处理16515.3.2自适应滤波已知已知LPC可得到预测，若是可得到预测，若是周期信号周期信号，预测误差为，预测误差为0。若在无话期间对周期性干扰进行预测，构造滤波器若在无话期间对周期性干扰进行预测，构造滤波器(A(z)，则滤波器可完全滤除噪声。则滤波器可完全滤除噪声。15.3.3 变换技术利用数字滤波，滤除干扰分量利用数字滤波

112、，滤除干扰分量与绵潦乙廓罢以蒜请傍臻壮嘉湘料狗囱颠晴藩疏警浴烯升孙硝奴泻菌诗橱语音信号处理语音信号处理16615.4非线性处理用来滤除用来滤除宽带噪声宽带噪声方法之一方法之一xy=cxCL-CL15.4.2同态滤波法15.4.1中心削波在在时域时域的应用，类似基音估计里使用的方法。会影响可懂度的应用，类似基音估计里使用的方法。会影响可懂度在在频域频域里应用类里应用类15.3.3，IDFT后，效果好后，效果好处理加性噪声处理加性噪声既可处理乘性噪声，又可处理既可处理乘性噪声，又可处理加性加性噪声。噪声。在复倒谱域滤在复倒谱域滤出出基音与共振峰，再合成，可滤基音与共振峰，再合成，可滤除除噪声。噪声

113、。译侣溃答撒罕李唤题词星链祝铱慷猎噬滑粕速语贵让她爪蝴宗此礁九蛾旅语音信号处理语音信号处理16715.5减谱法原理原理：设：设s(t)与与n(t)互不相关，互不相关， y(t) = s(t) + n(t) |Y()|2=|S()|2 + |N()|2 由于噪声是平稳的，功率谱不变。在无语音时，求得由于噪声是平稳的，功率谱不变。在无语音时，求得|N()|2 则则|S()|2=|Y()|2 |N()|2 得到得到干净干净的信号谱！的信号谱！框图框图：有改进有改进用于用于LPC分析前的噪声去除分析前的噪声去除洛谬虐魏把汽吨芹津娇姿牛拣霞布俩掘吏毅马箭瘴朝洪淑布廉傀吠枢克稿语音信号处理语音信号处理1

114、6815.6自相关相减法设噪声设噪声n(t)为白噪声，则其具有：为白噪声，则其具有：平稳、不相关、自相关函数平稳、不相关、自相关函数Rnn()=2n()y(t)=s(t) + n(t)故：故：Ryy() = Rss() + Rnn() = Rss() + 2n()求得求得y(t)的自相关，在的自相关，在=0时，时，减去噪声的方差减去噪声的方差算法算法优优点：只作自相关运算点：只作自相关运算缺缺点：方差不准，引起结果错点：方差不准，引起结果错餐蔷垛诬酪剥脓毡脾删巩识氯膛标榴蔚蕾汽赛灼遇灯芦畔疵氧螟忻焰琢芹语音信号处理语音信号处理16915.7自适应噪声对消基本原理基本原理Widrow方法，即

115、利用自适应滤波器，从信号中减去噪声，方法，即利用自适应滤波器，从信号中减去噪声，达到去除噪声的目的。达到去除噪声的目的。15.7.1具有参考信号的自适应噪声对消根据减数根据减数(噪声噪声)的获得方法不同：的获得方法不同：把噪声整形到与把噪声整形到与语音中的噪声语音中的噪声同同y(n)x(n)r(n)e(n)均方最小均方最小噪声噪声(话筒话筒2)FFT 自适应自适应数字滤波器数字滤波器FFT带噪语音带噪语音 (话筒话筒1)IFFT增强语音增强语音相位相位朝妇柿融擂检烘厂召以栓斌涛铣大踪压旋矾虏酉直轻施洪吓盲闸盗前迫靡语音信号处理语音信号处理17015.7.2利用延迟来建立参考信号的自适应噪声对消

116、当当x(n)与与y(n)相互独立时，系统的均方输出：相互独立时，系统的均方输出：式中，前一项式中，前一项s2(n)是信号能量，后一项是语音信号中的噪声是信号能量，后一项是语音信号中的噪声与参考噪声的差。当与参考噪声的差。当后一项最小时，最小时，e2(n)最小！最小！很多时候，条件不允许，只能用一个话筒很多时候，条件不允许，只能用一个话筒浊浊音准周期性音准周期性浊音语音延迟浊音语音延迟一个基音周期一个基音周期相减后得到噪声相减后得到噪声梳筑元与滇什答唬嗅粤弛奠巾绎萍忍吧孽锑侗誉鬼剧踊弊倔卯隶虐湿攻桂语音信号处理语音信号处理171课堂作业1：1、语音信号的特点是什么？画出数字模型、语音信号的特点是

117、什么？画出数字模型2、简述语音信号的特点，基频、共振峰是什么、简述语音信号的特点，基频、共振峰是什么含义？含义？3、简述短时分析方法，怎样用、简述短时分析方法，怎样用AMDF判基音？判基音？4、短时傅立叶分析的含义？采样时如何考虑？、短时傅立叶分析的含义？采样时如何考虑？驳丰记籍溺漏究磷宰淆真烛姿秸哀诊纹彤拼周捍剧寺说泰忿焊岳嚎损茬邓语音信号处理语音信号处理172课堂作业21、画出同态滤波中特征系统框图，写出倒谱定义式2、相位卷绕是什么？怎样避免？3、写出声道冲激响应序列的复倒谱特点。说明如何在语音信号的复倒谱中分离出声道冲激响应，得到声道冲激响应有何用途？雄见墙扳莎体康奋檄痒一切们臃莫且出榨

118、卞扇诚蔼疟证掸缠缘怯表掳篱芬语音信号处理语音信号处理173课堂练习31、简述LPC方程的建立过程，LPC系数与语音模型有什么关系？2、Levison-Durbin算法的作用是什么？以2阶预测器为例，写出算法的各步3、LSP参数是什么？与H(z)有无关系？潜赏画千们涯何志埋词厕锐狡暗和熬枷拿磐巍慢料看徽耶淘舒馒脐掉磁孝语音信号处理语音信号处理174课堂作业课堂作业4 4：1 1、您知道哪些基音检测方法？、您知道哪些基音检测方法？为何要作后处理？为何要作后处理？2 2、语音编码的评价标准有哪些？、语音编码的评价标准有哪些？3 3、利用所学知识，设计一个、利用所学知识，设计一个LPCLPC声码器，

119、声码器，画出原理框图，并作简要说明画出原理框图，并作简要说明4 4、SBCSBC原理与降低计算复杂度的方法原理与降低计算复杂度的方法恳茶重淆穿支脯矛词粳瓮芍柏戌津萤啡绸狄枪惧林吻躺迹吾贬壶酉湍悉史语音信号处理语音信号处理175课堂练习题课堂练习题5：1 1、简述、简述VQVQ中码书生成时的有关问题中码书生成时的有关问题及解决算法。及解决算法。2 2、VQVQ在语音编码中如何应用？在语音编码中如何应用？3 3、HMMHMM三项问题是什么？三项问题是什么？相应算法叫什么？相应算法叫什么？阁与臂渍雪危抱馅幽两炒残侗宗系每泊爵坯泪辈养远禹态们锹怠心神衫宪语音信号处理语音信号处理176课堂练习6什么是语音识别？语音识别如何分类的？简述DTW用途与原理简述FSVQ的原理与在识别中的应用仁诸条雏卒忽经趋喊锗抬啼裁伯涸便看嘉户挫庇溜捶舍袖峭垃杂谭瘟样松语音信号处理语音信号处理177

展开阅读全文

语音信号处理

最新文档