最新语音识别技术与声纹鉴定原理

上传人:pu****.1 文档编号:567616667 上传时间:2024-07-21 格式:PPT 页数:189 大小:5.27MB
返回 下载 相关 举报
最新语音识别技术与声纹鉴定原理_第1页
第1页 / 共189页
最新语音识别技术与声纹鉴定原理_第2页
第2页 / 共189页
最新语音识别技术与声纹鉴定原理_第3页
第3页 / 共189页
最新语音识别技术与声纹鉴定原理_第4页
第4页 / 共189页
最新语音识别技术与声纹鉴定原理_第5页
第5页 / 共189页
点击查看更多>>
资源描述

《最新语音识别技术与声纹鉴定原理》由会员分享,可在线阅读,更多相关《最新语音识别技术与声纹鉴定原理(189页珍藏版)》请在金锄头文库上搜索。

1、数字语音处理及MATLAB仿真张雪英编著1Voice Recognition010203技术简介技术简介应用领域应用领域发展前景发展前景2018年年1月月数字语音处理及MATLAB仿真张雪英编著2语音识别是以语音为研究对象,通语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。自动识别和理解人类口述的语言。就是就是让机器听懂你说话让机器听懂你说话。数字语音处理及MATLAB仿真张雪英编著3语音识别技术的应用包括语音拨号、语语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、音导航、室内设备控制、语音文档检索、

2、简单的听写数据录入等。语音识别技术简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。复杂的应用,例如语音到语音的翻译。数字语音处理及MATLAB仿真张雪英编著4人机交互方式图形用户界面图形用户界面Graphic Users Interface多点触控多点触控 Multi Touch数字语音处理及MATLAB仿真张雪英编著5应用领域应用领域数字语音处理及MATLAB仿真张雪英编著6Siri Google now车载导航车载导航智能智能PDA数字

3、语音处理及MATLAB仿真张雪英编著7语音语音搜索搜索歌曲歌曲识别识别语音语音控制控制家电家电遥控遥控 语音搜索早先的模式是我们可以通过打电话的方式查一些专项的资讯,比如天气预报或者打12315。随着服务的延伸呢,很多的企业都尽力了自己的客户专线,实际上这个时候语音信息的服务就由企业为他的用户提供,主要是产品或者服务的资讯或者售后服务。常见的有Apple的Siri和Google的GoogleNow。数字语音处理及MATLAB仿真张雪英编著8语音语音搜索搜索歌曲歌曲识别识别语音语音控制控制家电家电遥控遥控生活中,时常听到很熟悉的旋律,却想不出歌曲的名字。这个时候我们就可以直接利用语音识别功能来查

4、找相关歌曲,常见的有微信摇一摇搜歌,以及其他音乐播放软件的搜索功能。数字语音处理及MATLAB仿真张雪英编著9语音语音搜索搜索歌曲歌曲识别识别语音语音控制控制家电家电遥控遥控由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。数字语音处理及MATLAB仿真张雪英编著10语音语音搜索搜索歌曲歌曲识别识别语音语音控制控制家电家电遥控遥控用语音可以控制电视机、DVD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器

5、皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。数字语音处理及MATLAB仿真张雪英编著11随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。最新进展最新进展最新进展最新进展数字语音处理及MATLAB仿真张雪英编著12目前,国外的应用一直以苹果的Siri、谷歌的GoogleNow为代表。国内方面,科大讯飞、云知声、盛大、捷通华声、搜狗语音助手、紫冬口译、百度语音等系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间

6、接嵌入了类似的技术。最新进展最新进展最新进展最新进展数字语音处理及MATLAB仿真张雪英编著13发展前景语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。数字语音处理及MATLAB仿真张雪英编著14发展前景但任何技术的成熟都会经历一段很长时间的发展期,所以目前依然有识别率、可靠性及成本等问题亟待人们去克服。数字语音处理及MATLAB仿真张雪英编著15数字语音处理及MATLAB仿真张雪英编著16数字语音处理及MATLAB仿真张雪英编著17主要问题对自然

7、语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。数字语音处理及MATLAB仿真张雪英编著18主要问题语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。4.环境噪声和干扰对语音识别有严重影响,致使识别率低。数字语音处理及MATLAB仿真张雪英编著19语音识别语音识别概述概述1HMM基本原理及在语音识别中基本原理及在语音识别中的应用的应用2数字语音处理及MATLAB仿真张

8、雪英编著2010.1概述概述 语语音音识识别别以以语语音音为为研研究究对对象象,涉涉及及到到生生理理学学、心心理理学学、语语言言学学、计计算算机机科科学学,以以及及信信号号处处理理等等诸诸多多领领域域,最最终终目目的的是是实实现现人人与与机机器器进进行行自自然然语语言通信,用语言操纵计算机。言通信,用语言操纵计算机。 语语音音识识别别系系统统可可以以分分为为孤孤立立字字( (词词) )语语音音识识别别系系统、连接字语音识别系统以及连续语音识别系统。统、连接字语音识别系统以及连续语音识别系统。 数字语音处理及MATLAB仿真张雪英编著21 语语音音识识别别系系统统分分为为两两个个方方向向:一一是

9、是根根据据对对说说话话人人的的依依赖赖程程度度可可以以分分为为特特定定人人和和非非特特定定人人语语音音识识别别系系统统;二二是是根根据据词词汇汇量量大大小小,可可以以分分为为小小词词汇汇量量、中中等等词词汇汇量量、大大词词汇汇量量,以以及及无无限限词词汇汇量量语音识别系统。语音识别系统。 不不同同的的语语音音识识别别系系统统,尽尽管管设设计计和和实实现现的的细细节节不不同同,但但所所采采用用的的基基本本技技术术是是相相似似的的。一一个个典典型型的的语语音音识识别别系系统统如如下下页页图图所所示示。主主要要包包括括预预处处理、特征提取和训练识别网络。理、特征提取和训练识别网络。 数字语音处理及M

10、ATLAB仿真张雪英编著22输入输入预处理预处理特征提取特征提取训练识别训练识别网络网络输出输出语音识别系统组成部分图示语音识别系统组成部分图示数字语音处理及MATLAB仿真张雪英编著2310.1.1预处理预处理在在语语音音识识别别系系统统中中,语语音音信信号号预预处处理理主主要要包包括抗混叠滤波、预加重及端点检测等。括抗混叠滤波、预加重及端点检测等。1抗混叠滤波与预加重抗混叠滤波与预加重语语音音信信号号的的频频谱谱分分量量主主要要集集中中在在3003400Hz范范围围内内。因因此此需需用用一一个个防防混混叠叠的的带带通通滤滤波波器器将将此此范范围围内内的的语语音音信信号号的的频频谱谱分分量量

11、取取出出,然然后后对对语语音音信信号号进行采样,得到离散的时域语音信号。进行采样,得到离散的时域语音信号。数字语音处理及MATLAB仿真张雪英编著24抗混叠滤波抗混叠滤波 根根据据采采样样定定理理,如如果果模模拟拟信信号号的的频频谱谱的的带带宽宽是是有有限限的的,那那么么用用等等于于或或高高于于2 2fm的的取取样样频频率率进进行行采采样样,所所得得到到的的信信号号能能够够完完全全唯唯一一的的代代表表原原模模拟拟信号,或者说能够由取样信号恢复出原始信号。信号,或者说能够由取样信号恢复出原始信号。 因因此此,为为了了防防止止混混叠叠失失真真和和噪噪声声干干扰扰,必必须须在在采采样样前前用用一一个

12、个锐锐截截止止模模拟拟低低通通滤滤波波器器对对语语音音信信号号进进行行滤滤波波。该该滤滤波波器器称称为为反反混混叠叠滤滤波波器器或或去去伪伪滤波器。滤波器。 数字语音处理及MATLAB仿真张雪英编著25预加重预加重语语音音从从嘴嘴唇唇辐辐射射会会有有6dB/oct的的衰衰减减,因因此此在在对对语语音音信信号号进进行行处处理理之之前前,希希望望能能按按6dB/oct的的比比例例对对信信号号加加以以提提升升(或或加加重重),以以使使得得输输出出信信号号的的电电平平相相近近似似。可可采采用用以以下下差差分分方方程程定定义义的的数数字字滤滤波器:波器:(10-1)式中,系数常在式中,系数常在0.9至至

13、1之间选取。之间选取。数字语音处理及MATLAB仿真张雪英编著262端点检测端点检测 语语音音信信号号起起止止点点的的判判别别是是任任何何一一个个语语音音识识别别系系统统必必不不可可少少的的组组成成部部分分。常常用用的的端端点点检检测测方方法法有有下面两种。下面两种。数字语音处理及MATLAB仿真张雪英编著27(1) 短时平均幅度短时平均幅度 端端点点检检测测中中需需要要计计算算信信号号的的短短时时能能量量,由由于于短短时时能能量量的的计计算算涉涉及及到到平平方方运运算算,而而平平方方运运算算势势必必扩扩大大了了振振幅幅不不等等的的任任何何相相邻邻取取样样值值之之间间的的幅幅度度差差别别,这这

14、就就给给窗窗的的宽宽度度选选择择带带来来了了困困难难,而而用用短短时时平平均均幅幅度度来来表表示示语语音音能能量量,在在一一定定程程度度上上可可以以克服这个弊端。克服这个弊端。数字语音处理及MATLAB仿真张雪英编著28(2) (2) 短时平均过零率短时平均过零率 当离散信号的相邻两个取样值具有不同的符当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数号时,便出现过零现象,单位时间内过零的次数叫做过零率。叫做过零率。 如果离散时间信号的包络是窄带信号,那么如果离散时间信号的包络是窄带信号,那么过零率可以比较准确的反应该信号的频率。在宽过零率可以比较准确的反应该信号

15、的频率。在宽带信号情况下,过零率只能粗略的反映信号的频带信号情况下,过零率只能粗略的反映信号的频谱特性。谱特性。数字语音处理及MATLAB仿真张雪英编著2910.1.2语音识别特征提取语音识别特征提取 特特征征提提取取,也也称称为为前前端端处处理理,与与之之相相关关的的内内容则是特征间的距离度量。容则是特征间的距离度量。 特特征征提提取取:即即对对不不同同的的语语音音寻寻找找其其内内在在特特征征,由由此此来来判判别别出出未未知知语语音音,所所以以每每个个语语音音识识别别系系统统都都必须进行特征提取。必须进行特征提取。 特特征征的的选选择择对对识识别别效效果果至至关关重重要要。同同时时,还还要要

16、考虑特征参数的计算量。考虑特征参数的计算量。 数字语音处理及MATLAB仿真张雪英编著30 孤孤立立词词语语音音识识别别系系统统的的特特征征提提取取一一般般需需要要解解决两个问题:决两个问题: 一一个个是是从从语语音音信信号号中中提提取取( (或或测测量量) )有有代代表表性性的合适的特征参数的合适的特征参数( (即选取有用的信号表示即选取有用的信号表示) ); 另一个是进行适当的数据压缩。另一个是进行适当的数据压缩。 对对于于非非特特定定人人语语音音识识别别来来讲讲,希希望望特特征征参参数数尽尽可可能能多多的的反反映映语语义义信信息息,尽尽量量减减少少说说话话人人的的个个人人信信息息( (对

17、对特特定定人人语语音音识识别别来来讲讲,则则相相反反) )。从从信信息息论论角度讲,这也是信息压缩的过程。角度讲,这也是信息压缩的过程。数字语音处理及MATLAB仿真张雪英编著31 语音信号的特征主要有时域和频域两种。语音信号的特征主要有时域和频域两种。 时时域域特特征征:短短时时平平均均能能量量、短短时时平平均均过过零零率率、共振峰、基音周期等;共振峰、基音周期等; 频频域域特特征征:线线性性预预测测系系数数(LPC)、LP倒倒谱谱系系数数(LPCC)、线线谱谱对对参参数数(LSP)、短短时时频频谱谱、Mel频频率率倒谱系数倒谱系数(MFCC)等。等。 目目前前已已有有结结合合时时间间和和频

18、频率率的的特特征征,即即时时频频谱谱,充充分分利利用用了了语语音音信信号号的的时时序序信信息息;以以及及基基于于听听觉觉模型的特征参数提取,如感知线性预测模型的特征参数提取,如感知线性预测(PLP)分析。分析。数字语音处理及MATLAB仿真张雪英编著321线性预测系数(线性预测系数(LPC) 线线性性预预测测分分析析从从人人的的发发声声机机理理入入手手,通通过过对对声声道道的的短短管管级级联联模模型型的的研研究究,认认为为系系统统的的传传递递函函数数符符合合全全极极点点数数字字滤滤波波器器的的形形式式,从从而而某某一一时时刻刻的的信信号号可可以以用用前前若若干干时时刻刻的的信信号号的的线线性性

19、组组合合来来估估计计。通通过过使使实实际际语语音音的的采采样样值值和和线线性性预预测测采采样样值值之之间间达达到到均均方方误误差差(MSE)最最小小,即即可可得得到到线线性性预预测测系系数数LPC。数字语音处理及MATLAB仿真张雪英编著33 根根据据语语音音产产生生的的模模型型,语语音音信信号号S(z)是是一一个个线线性性非非移移变变因因果果稳稳定定系系统统V(z)受受到到信信号号E(z)激激励励产产生生的的输输出出。在在时时域域中中,语语音音信信号号s(n)是是该该系系统统的的单单位位取取样样响响应应v(n)和和激激励励信信号号e(n)的的卷卷积积。语语音音产产生生的的声道模型是一个可用下

20、式阐述的全极点模型:声道模型是一个可用下式阐述的全极点模型:数字语音处理及MATLAB仿真张雪英编著34 根根据据最最小小均均方方误误差差对对该该模模型型参参数数ak进进行行估估计计,就得到了线性预测编码就得到了线性预测编码(LPC)算法,求得的算法,求得的即即为为LP系系数数(p为为预预测测器器阶阶数数)。对对LPC的的计计算算方方法法有有自自相相关关法法(Levinson-Durbin莱莱文文逊逊-杜杜宾宾法法)、协协方方差差法法、格格型型法法等等。计计算算上上的的快快速速有有效效保保证证了了这一声学特征的广泛使用。这一声学特征的广泛使用。数字语音处理及MATLAB仿真张雪英编著352LP

21、C倒谱系数倒谱系数(LPCC) 倒倒谱谱系系数数是是信信号号的的z变变换换的的对对数数模模函函数数的的逆逆z变变换换,一一般般先先求求信信号号的的傅傅里里叶叶变变换换,取取模模的的对对数数,再求傅里叶逆变换得到。再求傅里叶逆变换得到。主主要要优优点点:比比较较彻彻底底地地去去掉掉了了语语音音产产生生过过程程中中的的激激励励信信息息,反反映映了了声声道道响响应应,而而且且往往往往只只需需要要几几个个倒倒谱谱系系数数就就能能够够很很好好地地描描述述语语音音的的共共振振峰峰特性。特性。数字语音处理及MATLAB仿真张雪英编著363Mel频率倒谱系数频率倒谱系数(MFCC)Mel频频率率倒倒谱谱系系数

22、数是是先先将将信信号号频频谱谱的的频频率率轴轴转转变变为为Mel刻刻度度,再再变变换换到到倒倒谱谱域域得得到到倒倒谱谱系系数数。其计算过程如下:其计算过程如下:(1)将信号进行短时傅立叶变换得到其频谱。将信号进行短时傅立叶变换得到其频谱。(2)求求频频谱谱幅幅度度的的平平方方,即即能能量量谱谱,并并用用一一组组三三角角滤波器在频域对能量进行带通滤波。滤波器在频域对能量进行带通滤波。(3)对对滤滤波波器器的的输输出出取取对对数数,然然后后作作2M点点傅傅立立叶叶逆变换即可得到逆变换即可得到MFCC。数字语音处理及MATLAB仿真张雪英编著37这这里里,MFCC系系数数的的个个数数L通通常常取取最

23、最低低的的1216。在在谱谱失失真真测测度度定定义义中中通通常常不不用用0阶阶倒倒谱谱系系数数,因因为为它它是是反反映映倒倒谱谱能能量量的的。上上面面所所说说的的在在频频域域进进行行带带通通滤滤波波是是对对能能量量谱谱进进行行滤滤波波,这这样样做做的的根根据据是是考考虑虑到到一一个个多多分分量量信信号号的的总总能能量量应应该该是是各各个个正正交交分分量量的能量之和。的能量之和。数字语音处理及MATLAB仿真张雪英编著384.过零峰值幅度过零峰值幅度(ZCPA) 特特征征参参数数的的好好坏坏直直接接决决定定着着系系统统的的识识别别性性能能。要要想想使使识识别别系系统统有有好好的的鲁鲁棒棒性性,必

24、必须须要要求求提提取取的的特特征参数有很强的抗噪性。征参数有很强的抗噪性。 人人类类的的听听觉觉系系统统在在噪噪音音环环境境下下能能够够很很好好工工作作,所所以以如如果果语语音音识识别别系系统统能能模模拟拟人人类类听听觉觉感感知知的的处处理理特点,噪音环境下识别率一定会提高。特点,噪音环境下识别率一定会提高。数字语音处理及MATLAB仿真张雪英编著39 近近年年来来,基基于于听听觉觉模模型型的的语语音音特特征征提提取取方方法法在语音识别领域日益受到重视。在语音识别领域日益受到重视。过过零零峰峰值值幅幅度度特特征征ZCPA就就是是基基于于人人类类听听觉觉特性的一种特征。特性的一种特征。下下图图给

25、给出出了了基基于于人人耳耳听听觉觉特特性性的的ZCPA特特征征提取原理图:提取原理图:数字语音处理及MATLAB仿真张雪英编著40ZCPA原理框图原理框图数字语音处理及MATLAB仿真张雪英编著41该该系系统统由由带带通通滤滤波波器器组组、过过零零检检测测器器、峰峰值值检检测测器器、非非线线性性压压缩缩和和频频率率接接收收器器组组成成。带带通通滤滤波波器器组组由由16个个FIR滤滤波波器器组组成成,用用来来仿仿真真耳耳蜗蜗基基底底膜膜;过过零零检检测测器器、峰峰值值检检测测器器、非非线线性性压压缩缩部部分分则则仿仿真真听听觉觉神神经经纤纤维维。从从过过零零检检测测器器获获得得频频率率信信息息,

26、峰峰值值检检测测器器获获得得强强度度信信息息,经经非非线线性性压压缩缩后后,用用频频率率接接收收器器合合成成频频率率信信息息和和强强度度信信息息,最最后将后将16路所获得的信息合成为语音信号的特征。路所获得的信息合成为语音信号的特征。数字语音处理及MATLAB仿真张雪英编著4210.1.3语音识别方法语音识别方法一般来说,语音识别的方法有四种:一般来说,语音识别的方法有四种:基于声道模型和语音知识的方法基于声道模型和语音知识的方法模式匹配的方法模式匹配的方法统计模型方法统计模型方法人工神经网络的方法人工神经网络的方法基于声道模型和语音知识的方法起步较早,基于声道模型和语音知识的方法起步较早,没

27、有达到实用的阶段。目前常用的方法是后三种没有达到实用的阶段。目前常用的方法是后三种方法,目前它们都已达到了实用阶段。方法,目前它们都已达到了实用阶段。数字语音处理及MATLAB仿真张雪英编著43 模模式式匹匹配配常常用用的的技技术术有有矢矢量量量量化化(VQ)和和动态时间规整(动态时间规整(DTW););统统计计型型模模型型方方法法常常见见的的是是隐隐马马尔尔可可夫夫模模型型(HMM);语语音音识识别别常常用用的的神神经经网网络络有有反反向向传传播播(BP)网网络络、径径向向基基函函数数网网络络(RBF)及及小小波波网络。网络。本本书书重重点点介介绍绍经经典典的的隐隐马马尔尔可可夫夫模模型型及

28、及其其在在语音识别中的应用。语音识别中的应用。 数字语音处理及MATLAB仿真张雪英编著44模式匹配法用于语音识别共有四个步骤模式匹配法用于语音识别共有四个步骤:特征特征提取、模板训练、模板分类、判决。其原理框图提取、模板训练、模板分类、判决。其原理框图如下:如下:数字语音处理及MATLAB仿真张雪英编著45训训练练过过程程:输输入入语语音音经经过过预预处处理理后后,语语音音信信号号的的特特征征被被提提取取出出来来,首首先先在在此此基基础础上上建建立立所所需需的模板,这个建立模板的过程称为训练过程。的模板,这个建立模板的过程称为训练过程。识识别别过过程程:根根据据语语音音识识别别整整体体模模型

29、型,将将输输入入的的语语音音信信号号特特征征与与存存在在的的语语音音模模板板(参参考考模模式式)进进行行比比较较,找找出出一一系系列列最最优优的的与与输输入入的的语语音音相相匹匹配配的的模模板板。然然后后,根根据据此此模模板板号号的的定定义义,通通过过查查表就可以给出计算机的识别结果。表就可以给出计算机的识别结果。数字语音处理及MATLAB仿真张雪英编著46动态时间规整(动态时间规整(DTW)算法的思想:)算法的思想:把把未未知知量量均均匀匀地地伸伸长长或或缩缩短短,直直到到它它与与参参考考模模式式的的长长度度一一致致时时为为止止。在在时时间间规规整整过过程程中中,未未知知单单词词的的时时间间

30、轴轴要要不不均均匀匀地地扭扭曲曲或或弯弯折折,以以便便使使其特征与模型特征对正。其特征与模型特征对正。DTW应应用用动动态态规规划划方方法法在在孤孤立立词词语语音音识识别别中中获获得得了了良良好好性性能能。但但因因其其不不适适合合连连续续语语音音大大词词汇汇量量语语音音识识别别系系统统,目目前前已已被被HMM模模型型和和ANN替代。替代。数字语音处理及MATLAB仿真张雪英编著47隐隐马马尔尔可可夫夫模模型型是是对对语语音音信信号号的的时时间间序序列列结结构构建建立立统统计计模模型型,将将之之看看作作一一个个数数学学上上的的双双重重随随机过程:机过程:一一个个是是用用具具有有有有限限状状态态数

31、数的的Markov链链来来模模拟拟语语音音信信号号统统计计特特性性变变化化的的隐隐含含的的随随机机过过程程,另另一一个个是是与与Markov链链的的每每一一个个状状态态相相关关联联的的观观测测序序列列的的随随机机过过程程。前前者者通通过过后后者者表表现现出出来来,但但前前者者的的具体参数是不可测的。具体参数是不可测的。数字语音处理及MATLAB仿真张雪英编著48基于基于HMM的孤立词语音识别原理图的孤立词语音识别原理图数字语音处理及MATLAB仿真张雪英编著49采采用用HMM进进行行语语音音识识别别,实实质质上上是是一一种种概概率率运运算算。根根据据训训练练集集数数据据计计算算得得出出模模型型

32、参参数数后后,测测试试集集数数据据只只需需分分别别计计算算各各模模型型的的条条件件概概率率(Viterbi算法),取此概率最大者即为识别结果。算法),取此概率最大者即为识别结果。除除训训练练时时需需运运算算量量较较大大外外,识识别别时时的的运运算算量量仅有模式匹配法的几分之一。仅有模式匹配法的几分之一。数字语音处理及MATLAB仿真张雪英编著50人人工工神神经经网网络络(ANN)在在语语音音识识别别中中的的应应用用是是当当前前研研究究的的热热点点。人人工工神神经经网网络络本本质质上上是是一一个个自自适适应应非非线线性性动动力力学学系系统统,模模拟拟了了人人类类神神经经元元活活动动的的原原理理,

33、具具有有自自适适应应性性、并并行行性性、鲁鲁棒棒性性、容容错错性性和和学学习习特特性性。目目前前用用于于语语音音识识别别的的神神经经网网络络有有多多层层感感知知机机,Kohonen自自组组织织神神经经网网和和预预测测神神经网。经网。数字语音处理及MATLAB仿真张雪英编著51由由于于神神经经网网络络反反映映了了人人脑脑功功能能的的基基本本特特征征,具具有有自自组组织织性性、自自适适应应性性、和和连连续续学学习习的的能能力力。这这种种网网络络是是可可以以训训练练的的,即即可可以以随随着着经经验验的的积积累累而而改改变变自自身身的的性性能能。同同时时由由于于高高度度的的并并行行性性,它它们们能能够

34、够进进行行快快速速判判决决并并具具有有容容错错性性,特特别别适适合合于于解解决决象象语语音音识识别别这这类类难难以以用用算算法法来来描描述述而而又又有有大大量样本可供学习的问题。量样本可供学习的问题。数字语音处理及MATLAB仿真张雪英编著52基于神经网络的语音识别原理图基于神经网络的语音识别原理图待识别的待识别的语音数据语音数据权值权值w根据标号训练根据标号训练网络得出权值网络得出权值已有神经已有神经网络模型网络模型输出结果输出结果特特 征征 提提 取取用于训练的用于训练的语音数据语音数据数字语音处理及MATLAB仿真张雪英编著53 神经网络的语音识别方法与传统方法差异:神经网络的语音识别方

35、法与传统方法差异: 提提取取了了语语音音的的特特征征参参数数后后,靠靠神神经经网网络络中中大大量量的的连连接接权权对对输输入入模模式式进进行行非非线线性性运运算算,产产生生最最大大兴兴奋奋的的输输入入点点就就代代表表了了输输入入模模式式对对应应的的分分类类。神神经经网网络络的的连连接接权权系系数数是是在在使使用用中中根根据据识识别别结结果果的的正确与否不断的进行自适应修正。正确与否不断的进行自适应修正。 比比较较起起来来,神神经经网网络络识识别别系系统统更更接接近近人人类类的的感知过程。感知过程。 数字语音处理及MATLAB仿真张雪英编著54矢矢量量量量化化技技术术在在语语音音识识别别中中应应

36、用用时时,一一般般是是先先用用矢矢量量量量化化的的码码本本作作为为语语音音识识别别的的参参考考模模板板,即即系系统统词词库库中中的的每每一一个个(字字)词词,做做一一个个码码本本作作为为该该(字字)词的参考模板。词的参考模板。识识 别别 时时 对对 于于 任任 意意 输输 入入 的的 语语 音音 特特 征征 矢矢 量量 序序 列列 ,计计算算该该序序列列对对每每一一个个码码本本的的总总平平均均的的失失真真量量化化误误差差。总总平平均均失失真真误误差差最最小小的的码码本本所所对对应应的的(字字)词词即为识别结果。即为识别结果。数字语音处理及MATLAB仿真张雪英编著55矢量量化在语音识别中的应用

37、矢量量化在语音识别中的应用 预预处处理理参参数数提提取取码本码本1码本码本2码本码本M判决逻辑判决逻辑模型模型1模型模型2语音语音信号信号识别输识别输出结果出结果数字语音处理及MATLAB仿真张雪英编著5610.2HMM基本原理及在语音识基本原理及在语音识别中的应用别中的应用10.2.1隐马尔可夫模型隐马尔可夫模型马尔可夫过程(或马尔可夫链)直观解释是:马尔可夫过程(或马尔可夫链)直观解释是:在在已已知知系系统统目目前前的的状状态态(现现在在)的的条条件件下下,“将将来来”与与“过过去去”无无关关。这这种种过过程程也也称称为为无无记记忆忆的的单单随随机机过过程程。如如果果这这种种单单随随机机过

38、过程程的的取取值值(状状态态)是是离离散的,我们又可以将它称作无记忆的离散随机过程。散的,我们又可以将它称作无记忆的离散随机过程。数字语音处理及MATLAB仿真张雪英编著57假假设设有有一一个个系系统统,它它在在任任何何时时间间可可以以认认为为处处在在有有限限多多个个状状态态的的某某个个状状态态下下。在在均均匀匀划划分分地地时时间间间间隔隔上上,系系统统的的状状态态按按一一组组概概率率发发生生改改变变(包包括括停停留留在在原原状状态态),这这组组概概率率值值和和状状态态有有关关,而而且且这这个个状状态态对对应应于于一一个个可可观观测测的的物物理理事事件件,因此称之为可观测马尔可夫过程。因此称之

39、为可观测马尔可夫过程。数字语音处理及MATLAB仿真张雪英编著58不不可可测测(随随机机)的的双双随随机机过过程程只只能能通通过过另另一一组组随随机机过过程程才才能能观观测测到到,另另一一组组随随机机过过程程产产生生出出观观测测序序列列(行行为为),而而这这组组行行为为是是可可见见不不可可测测的的。因因此此,这这种种双双随随机机过过程程称称为为隐隐马马尔尔可可夫夫模模型型(或或隐隐马马尔尔可可夫夫过过程程)。通通常常,HMM对对应应的的状状态态被被假假设设为为离离散散的的,且且其其演演变变是是无无记记忆忆的的,因因而而,HMM也被称为无记忆的离散双随机过程。也被称为无记忆的离散双随机过程。数字

40、语音处理及MATLAB仿真张雪英编著59隐马尔可夫过程是一个双重随机过程:隐马尔可夫过程是一个双重随机过程:一一重重用用于于描描述述非非平平稳稳信信号号的的短短时时平平稳稳段段的的统统计计特特征征(信信号号的的瞬瞬态态特特征征,可可直直接接观观测测到到);另另一一重重随随机机过过程程描描述述了了每每个个短短时时平平稳稳段段如如何何转转变变到到下下一一个个短短时时平平稳稳段段,即即短短时时统统计计特特征征的的动动态态特特性性(隐隐含含在观察序列中在观察序列中)。基基于于这这两两重重随随机机过过程程,HMM既既可可有有效效解解决决怎怎样样辨辨识识具具有有不不同同参参数数的的短短时时平平稳稳信信号号

41、段段,又又可可解决怎样跟踪它们之间的转化等问题。解决怎样跟踪它们之间的转化等问题。数字语音处理及MATLAB仿真张雪英编著60人人的的言言语语过过程程也也是是这这样样一一个个双双重重随随机机过过程程。因因为为语语音音信信号号本本身身是是一一个个可可观观察察的的序序列列,而而它它又又是是由由大大脑脑里里的的(不不可可观观察察的的)、根根据据言言语语需需要要和和语语法法知知识识(状状态态选选择择)所所发发出出的的音音素素(词词、句句)的的参参数数流流,大大量量实实验验表表明明,HMM的的确确可可以以非非常常精精确确地描述语音信号的产生过程。地描述语音信号的产生过程。数字语音处理及MATLAB仿真张

42、雪英编著61(1)N模型的状态数目。模型的状态数目。状态的集合表示为状态的集合表示为(2)M观测符号数。观测符号数。即每个状态可能输出的观测符号的数目。即每个状态可能输出的观测符号的数目。观测符号集合表示为观测符号集合表示为(3)A状态转移概率分布。状态转移概率分布。状态转移概率构成的矩阵为状态转移概率构成的矩阵为一个隐马尔可夫模型由下列参数来决定:一个隐马尔可夫模型由下列参数来决定:数字语音处理及MATLAB仿真张雪英编著62(4)B状态的观测符号概率分布。状态的观测符号概率分布。(5) 初始状态分布。初始状态分布。为了完整地描述一个隐马尔可夫模型,应当为了完整地描述一个隐马尔可夫模型,应当

43、指定状态数指定状态数N,观测符号数,观测符号数M,以及三个概率密度,以及三个概率密度A、B和和 。这些参数之间有一定的联系,因此为。这些参数之间有一定的联系,因此为了方便,了方便,HMM常用常用来简记。来简记。数字语音处理及MATLAB仿真张雪英编著6310.2.2隐马尔可夫模型的三个基本问题隐马尔可夫模型的三个基本问题给给定定HMM的的形形式式后后,为为了了将将其其应应用用于于实实际际,必须解决以下三个基本关键问题:必须解决以下三个基本关键问题:(1)已已知知观观测测序序列列和和模模型型,如如何何有有效效的的计计算算在在给给定定模模型型条条件件下下产产生生观观测测序序列列的的概概率率。(2)

44、已已知知观观测测序序列列和和模模型型,如如何何选择在某种意义上最佳的状态序列。选择在某种意义上最佳的状态序列。(3)给定观测序列,如何调整参数给定观测序列,如何调整参数使条件概率使条件概率最大。最大。数字语音处理及MATLAB仿真张雪英编著641第一个问题的求解第一个问题的求解这是一个评估问题,即已知模型和一个观测这是一个评估问题,即已知模型和一个观测序列,怎样来评估这个模型(它与给定序列匹配得序列,怎样来评估这个模型(它与给定序列匹配得如何),或怎样给模型打分,这个问题通常被称为如何),或怎样给模型打分,这个问题通常被称为“前向前向-后向后向”的算法解决。的算法解决。(一)前向算法(一)前向

45、算法首先要定义一个前向变量首先要定义一个前向变量即在给定模型条件下,产生即在给定模型条件下,产生t以前的部分观测符号以前的部分观测符号序列,且序列,且t时刻又处于状态时刻又处于状态Si的概率。的概率。数字语音处理及MATLAB仿真张雪英编著65以下是前向变量进行迭代计算的步骤:以下是前向变量进行迭代计算的步骤:(1)初始化初始化(2)迭代计算迭代计算(3)最后计算最后计算其中其中为状态转移矩阵中的元素,为状态转移矩阵中的元素,为观测符为观测符号矩阵中的元素。号矩阵中的元素。数字语音处理及MATLAB仿真张雪英编著66(二)后向算法(二)后向算法同理,可以类似地定义后向变量同理,可以类似地定义后

46、向变量:即在给定模型即在给定模型及及t时刻处于状态时刻处于状态Si的条件下,的条件下,产生产生t以后的部分观测符号序列以后的部分观测符号序列的概的概率。率。数字语音处理及MATLAB仿真张雪英编著67(1)初始化初始化(2)迭代计算迭代计算(3)最后计算最后计算前向和后向算法对于求解问题前向和后向算法对于求解问题2和问题和问题3也是有帮也是有帮助的。助的。后向变量也可以用迭代法进行计算,步骤如下:后向变量也可以用迭代法进行计算,步骤如下:数字语音处理及MATLAB仿真张雪英编著68由由于于表表示示t时时刻刻处处于于状状态态且且部部分分观观测测序序列列为为,而而表表示示t时时刻刻处处于于状状态态

47、且且剩剩下下部部分分的的观观测测序序列列为为,因因而而表表示示产产生生整整个个观观测测序序列列O且且t时时刻刻处处于于状状态态的的概概率率,即即那么,问题那么,问题1也可以通过同时使用前向后向概也可以通过同时使用前向后向概率来求解,即率来求解,即数字语音处理及MATLAB仿真张雪英编著692第二个问题的求解第二个问题的求解这个问题是求取伴随给定观测序列产生的最这个问题是求取伴随给定观测序列产生的最佳状态序列。这一最佳判据,目的就是要使正确的佳状态序列。这一最佳判据,目的就是要使正确的状态数目的期望值最大。它通常用状态数目的期望值最大。它通常用Viterbi算法解决,算法解决,用于模型细调。用于

48、模型细调。首先定义变量首先定义变量:它是在给定观测序列它是在给定观测序列O和模型和模型的条件下,的条件下,t时时刻处在状态刻处在状态Si的概率。的概率。数字语音处理及MATLAB仿真张雪英编著70由于由于所以有所以有 且且从而可求出在各个时刻所处的最可能的状态为:从而可求出在各个时刻所处的最可能的状态为: 可用前后向变量表示为:可用前后向变量表示为:数字语音处理及MATLAB仿真张雪英编著71但但是是,上上式式的的求求解解仅仅仅仅从从每每个个时时刻刻出出现现最最可可能能的的状状态态来来考考虑虑的的,而而没没有有考考虑虑到到状状态态序序列列的的发发生生概概率率(如如没没有有考考虑虑全全局局结结构

49、构,时时间间上上相相邻邻状状态态以及观测序列的长度等等)。以及观测序列的长度等等)。上上述述问问题题的的解解决决办办法法是是对对最最佳佳判判据据进进行行修修正正。最最广广泛泛应应用用的的判判据据是是寻寻找找单单个个最最佳佳状状态态序序列列(路路径径),亦亦即即使使最最大大。下下面面介介绍绍的的Viterbi算算法法就就是是一一种种以以动动态态规规划划为为基基础础的的寻寻找找单单个个最最佳佳状状态态序序列的方法。列的方法。数字语音处理及MATLAB仿真张雪英编著72完整的算法如下所述:完整的算法如下所述:(1)初始化初始化(2)迭代计算迭代计算(3)最后计算最后计算(4)路径路径(状态序列状态序

50、列)回溯回溯数字语音处理及MATLAB仿真张雪英编著733第三个问题的求解第三个问题的求解这这个个问问题题是是调调整整模模型型参参数数,使使观观测测序序列列在在给给定定模模型型条条件件下下发发生生概概率率最最大大。即即模模型型参参数数重重估估问问题题(训训练练问问题题)。事事实实上上,给给定定任任何何有有限限观观测测序序列列作作为为训训练练数数据据,没没有有一一种种最最佳佳方方法法能能估估计计模模型型参参数数。但但是是可可以以利利用用迭迭代代处处理理方方法法(Baum-Welch法法,或或称称期期望望值值修修正正法法)来来选选择择(A,B, )以以使使得得最最大大,可可以以用用参参数数重重估估

51、来解决。来解决。数字语音处理及MATLAB仿真张雪英编著74首先定义变量首先定义变量即给定模型和观测序列条件下,在时间即给定模型和观测序列条件下,在时间t处于状态处于状态Si,而在时间,而在时间t+1处于状态处于状态Sj的概率。根据前后向的概率。根据前后向变量的定义,从计算图可以看出,变量的定义,从计算图可以看出,可写成如可写成如下形式:下形式:数字语音处理及MATLAB仿真张雪英编著75t-1 t+2 计算示意图计算示意图tt+1t-1数字语音处理及MATLAB仿真张雪英编著76此此前前己己经经定定义义了了为为在在给给定定模模型型和和观观察察序序列列O的的条条件件下下,在在时时刻刻t位位于于

52、状状态态为为Si的的条条件件概概率率,将将对对j求和,可把两者联系起来,即求和,可把两者联系起来,即利用上面的公式及计算事件发生的概念,可利用上面的公式及计算事件发生的概念,可以得到估计隐马尔可夫模型参数的方法,其计算以得到估计隐马尔可夫模型参数的方法,其计算公式如下公式如下数字语音处理及MATLAB仿真张雪英编著77(1) 的重估公式的重估公式即在时间即在时间t=1处于状态处于状态Si的次数的期望值。的次数的期望值。(2)aij的重估公式的重估公式(3)bj(Ok)的重估公式的重估公式数字语音处理及MATLAB仿真张雪英编著78把把现现在在的的模模型型定定义义为为=(A,B,=(A,B, )

53、 ),把把重重估估模模型型定定义义为为。以以上上述述方方法法为为基基础础,如如果果不不断断地地用用代代替替,并并重重复复上上述述重重估估计计算算,那那么么就就能能够够改改善善由由模模型型观观测测到到O的的概概率率,直直到到达达到某个极限点为止。到某个极限点为止。数字语音处理及MATLAB仿真张雪英编著794解决下溢问题后的重估公式解决下溢问题后的重估公式我我们们可可以以看看到到上上面面的的重重估估公公式式均均涉涉及及到到了了前前向向变变量量和和后后向向变变量量的的计计算算。而而每每个个前前向向变变量量和和后后向向变变量量都都是是通通过过递递推推计计算算得得到到的的,即即是是由由连连续续相相乘乘

54、的的概概率率值值组组成成。当当t达达到到较较大大数数值值(如如100)时时,二二者者的的动动态态范范围围会会超超过过任任何何计计算算机机的的精精度度范范围围从从而而导导致致下下溢溢,因因此此要要用用软软件件实实现现此此算算法法,必须在计算过程中使用定标算法。必须在计算过程中使用定标算法。数字语音处理及MATLAB仿真张雪英编著80即即每每递递推推计计算算一一次次便便对对运运算算结结果果乘乘以以一一个个适适当当放放大大的的比比例例因因子子。下下面面给给出出了了详详细细的的定定标标过过程程并并且且推推导导了了加加入入定定标标因因子子后后三三个个参参数数的的重重估估公公式式(包括单序列和多序列重估公

55、式)。(包括单序列和多序列重估公式)。定定标标的的基基本本方方法法是是对对和和乘乘以以一一个个定定标标系系数数,该该系系数数与与t无无关关(即即它它只只取取决决于于t),目目的的是是使使定定标标后后的的和和总总是是处处在在计计算算机机的的动动态态范范围围之之内,在计算结束后,应当去掉所有的定标系数。内,在计算结束后,应当去掉所有的定标系数。下面给出完整的定标过程。下面给出完整的定标过程。数字语音处理及MATLAB仿真张雪英编著81(1)对前向变量进行定标对前向变量进行定标定标过程需要引入几个新的变量:定标过程需要引入几个新的变量:和和。是是待待求求前前向向变变量量值值,设设为为递递推推值值,为

56、为修修正正递递推推值值,由由于于的的下下溢溢问问题题,在在实实际际计计算算过过程程中中这这个个变变量量不不能能出出现现,所所以以公公式式中中的的必必须须用修正递推值用修正递推值代替。设代替。设ct为标度(定标)因子为标度(定标)因子则前向变量的递推计算按下面步骤进行。则前向变量的递推计算按下面步骤进行。数字语音处理及MATLAB仿真张雪英编著82初始化:初始化:递推:递推:数字语音处理及MATLAB仿真张雪英编著83定标后前向变量的计算公式为:定标后前向变量的计算公式为:根据上两个公式可以得到:根据上两个公式可以得到:推理后有下式成立推理后有下式成立数字语音处理及MATLAB仿真张雪英编著84

57、由于前向概率由于前向概率用修正递推值表示为:用修正递推值表示为:而而所以所以 数字语音处理及MATLAB仿真张雪英编著85(2)对后向变量进行定标对后向变量进行定标同上,我们引入两个变量,即递推值同上,我们引入两个变量,即递推值和和修正递推值修正递推值。初始化初始化令令同理类似于前向概率的定标最终可以得到:同理类似于前向概率的定标最终可以得到:加入定标算法后(即用修正递推值代替原来加入定标算法后(即用修正递推值代替原来的前后向变量)改写三个参数重估公式:的前后向变量)改写三个参数重估公式:数字语音处理及MATLAB仿真张雪英编著86数字语音处理及MATLAB仿真张雪英编著87 前前面面给给出出

58、了了单单个个序序列列训训练练模模型型参参数数的的重重估估公公式式。对对于于非非特特定定人人识识别别系系统统,如如果果语语音音的的全全部部知知识识只只是是词词汇汇表表中中每每个个单单词词的的一一个个例例词词,却却期期望望识识别别器器具具有有非非常常优优良良的的性性能能是是不不可可能能的的,应应该该给给识识别器提供单词模式的各种变异情况。别器提供单词模式的各种变异情况。 比比较较好好的的办办法法就就是是每每个个单单词词要要有有多多个个例例词词发发音音。所所以以不不能能用用一一个个观观测测序序列列来来训训练练模模型型,为为了了有有足足够够的的数数据据来来可可靠靠地地估估计计模模型型参参数数,必必须须

59、使使用用多个观测序列。多个观测序列。数字语音处理及MATLAB仿真张雪英编著88即即每每个个模模型型参参数数都都要要使使用用多多个个样样本本来来训训练练,假假设设有有L个个样样本本(对对应应于于L个个观观测测序序列列),现现假假定定每每个个观观测测序序列列都都是是相相互互独独立立的的,调调整整模模型型的的参参数数以以使使L个个乘乘积积的的值值最最大大,此此时时对对重重估估公公式式的的修修正正办办法法是是把把每每个个观观测测序序列列的的概概率率加在一起,这样修正后多序列的重估公式为:加在一起,这样修正后多序列的重估公式为:数字语音处理及MATLAB仿真张雪英编著89数字语音处理及MATLAB仿真

60、张雪英编著90单单序序列列和和多多序序列列 i的的重重估估公公式式中中都都出出现现了了概概率率P的的计计算算,这这样样又又会会引引入入新新的的下下溢溢问问题题,解解决决办办法法是是在在迭迭代代计计算算P的的过过程程中中,每每次次都都乘乘以以一一个个较较大大的的数数,这这样样分分子子分分母母每每次次都都乘乘以以一一个个相相同同的的数数,二者在同一数量级上,所以对重估公式没有影响。二者在同一数量级上,所以对重估公式没有影响。数字语音处理及MATLAB仿真张雪英编著9110.2.3隐马尔可夫模型用于语音识别隐马尔可夫模型用于语音识别1实验方法实验方法用用C+语语言言在在Windows操操作作系系统统

61、上上实实现现了了一一个个基基于于离离散散HMM的的孤孤立立词词语语音音识识别别系系统统。共共使使用用了了50词词16个个人人的的不不同同信信噪噪比比的的语语音音数数据据来来做做实实验验(包包括括无无噪噪音音、15dB、20dB、25dB、30dB的的数数据据),每每人人每每个个词词发发音音3次次,其其中中9人人的的语语音音数数据据(某某种种SNR)用用于于训训练练模模型型,另另外外7人人的的用用于于识识别别,得得到到这这种种SNR下下语语音音的的识识别别结结果果。每每个个词词的的HMM参参数数使使用用27个个样样本本(9人人3次次)来来训训练练,测测试试样本文件的数目依实验所用的词汇量而不同。

62、样本文件的数目依实验所用的词汇量而不同。数字语音处理及MATLAB仿真张雪英编著92具体实验步骤具体实验步骤第一步:特征提取第一步:特征提取第二步:矢量量化第二步:矢量量化第三步:训练隐马尔可夫模型第三步:训练隐马尔可夫模型第四步:对测试集单词进行识别第四步:对测试集单词进行识别数字语音处理及MATLAB仿真张雪英编著932实验结果及讨论实验结果及讨论下表为使用下表为使用ZCPA特征和特征和HMM的不同词汇量单的不同词汇量单词在各种词在各种SNR下的识别结果比较。下的识别结果比较。SNR(dB)15202530clean10词词85.784.786.285.789.120词词76.681.28

63、2.481.785.730词词77.181.983.182.983.540词词76.679.081.382.683.050词词72.174.580.179.081.7数字语音处理及MATLAB仿真张雪英编著94系统性能影响因素的讨论系统性能影响因素的讨论(1)矢量量化影响矢量量化影响由由于于系系统统使使用用的的是是离离散散隐隐马马尔尔可可夫夫模模型型方方法法,所所以以需需要要事事先先对对每每个个单单词词的的特特征征参参数数进进行行矢矢量量量量化化,这这样样不不可可避避免免地地会会引引入入量量化化误误差差,所所以以应应使使用用好好的的方方法法生生成成码码书书,以以减减小小由由此此引引起起的的失失

64、真真,从而使系统性能所受影响尽可能减小。从而使系统性能所受影响尽可能减小。数字语音处理及MATLAB仿真张雪英编著95(2)初值设定影响初值设定影响HMM训训练练方方法法(Baum-Welch算算法法)本本质质上上是是一一种种梯梯度度下下降降方方法法,在在训训练练过过程程中中有有可可能能到到达达局局部部最最小小值值。因因此此,初初值值的的选选取取比比较较重重要要,好好的的初初值值可可以以避避免免局局部部极极小小问问题题。我我们们可可以以加加入入一一定定的的优优化化方方法法来来选选取取初初值值。在在离离散散HMM中中,参参数数B对对系系统统的的性性能能有有很很大大影影响响,超超过过了了参参数数A

65、和和 。所所以以也也可可以以单单独独对对参参数数B初初值值的的选选取取采采用用一一定定的的优优化方法。化方法。数字语音处理及MATLAB仿真张雪英编著96(3)训练数据量的影响训练数据量的影响为为了了训训练练出出可可靠靠的的参参数数模模型型,必必须须加加大大训训练练集集的的数数据据。当当在在训训练练集集中中又又加加入入了了5个个人人的的语语音音数数据据(共共16人人数数据据),测测试试集集数数据据量量不不变变,分分别别对对10词词到到50词词的的数数据据进进行行了了无无噪噪音音及及信信噪噪比比为为15dB、20dB、25dB、30dB、clean条条件件下下的的实实验验,结结果果如如下下表表所

66、所示示。实实验验结结果果表表明明增增加加训训练练集集的的样样本本数数后,与后,与9人训练相比系统识别率有大幅度提高。人训练相比系统识别率有大幅度提高。数字语音处理及MATLAB仿真张雪英编著97SNR(dB)15202530clean10词词88.088.790.791.392.020词词86.087.790.389.391.730词词84.287.389.189.690.440词词82.887.788.790.790.850词词81.785.687.786.789.3数字语音处理及MATLAB仿真张雪英编著98(4)输出概率矩阵的平滑问题输出概率矩阵的平滑问题训训练练集集的的有有限限性性使使

67、得得训训练练完完以以后后的的B矩矩阵阵中中有有一一些些零零元元素素,这这些些不不合合理理的的零零概概率率会会给给识识别别带带来来一一定定的的影影响响,解解决决这这个个问问题题有有三三种种方方法法:基基数数法,距离法和同现法。法,距离法和同现法。实实验验中中采采用用的的是是最最简简单单的的基基数数法法,它它是是将将B矩矩阵阵中中小小于于某某个个给给定定最最小小值值的的元元素素e(e依依据据生生成成矩矩阵阵确确定定)赋赋给给一一个个值值(取取10-410-6),然然后后修修改改B矩矩阵阵的的其其它它元元素素使使它它满满足足约约束束条条件件:即即在在第第j个状态下个状态下。数字语音处理及MATLAB

68、仿真张雪英编著99实验结论:实验结论:将将B矩矩阵阵进进行行平平滑滑处处理理后后,对对训训练练集集内内数数据据做做识识别别测测试试时时(称称为为特特定定人人识识别别)识识别别率率随随值值增增大大而而下下降降,未未进进行行平平滑滑前前训训练练集集内内数数据据识识别别率率为为100%,平平滑滑处处理理后后识识别别率率略略有有下下降降,这这是是由由于于的的设设置置改改变变了了原原有有训训练练参参数数而而引引起起的的。而而对对测测试试集集数数据据进进行行识识别别测测试试时时(称称为为非非特特定定人人识识别别),识识别别率率随随值值增增加加而而上上升升。说说明明对对于于测测试试集集,越越小小,适适应应能

69、能力力越越差差。所所以以这这种种输输出出概概率率矩矩阵阵平平滑滑方方法法只只适适用用于于HMM的的非非特特定定人人识识别别。在在我我们们前前述述的的识识别别系系统统中中,选选取取=10=10-4-4,结结果果表表明明识识别别率率较较没没有有进进行输出矩阵平滑前增加了行输出矩阵平滑前增加了10%左右。左右。数字语音处理及MATLAB仿真张雪英编著100语音识别系统简述语音识别系统简述语音识别系统的本质就是一种模式识别系统,它包括特征提语音识别系统的本质就是一种模式识别系统,它包括特征提取、模式匹配、参考模式库等基本单元。由于语音信号是取、模式匹配、参考模式库等基本单元。由于语音信号是一种典型的非

70、平稳信号,加之呼吸气流、外部噪音、电流一种典型的非平稳信号,加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征,而要进行前干扰等使得语音信号不能直接用于提取特征,而要进行前期的预处理。期的预处理。预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。经过预处理的语音数据就可以进行特征参数端点检测等。经过预处理的语音数据就可以进行特征参数提取。在训练阶段,将特征参数进行一定的处理之后,为提取。在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模板库。在识别阶段,语每个词条得到一个模型,保存为模

71、板库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模板,与音信号经过相同的通道得到语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。结果。数字语音处理及MATLAB仿真张雪英编著101语音识别原理框图语音识别原理框图语音信号采集语音信号预处理端点检测识别参数提取识别参数匹配识别模板信号待识别信号识别结果语音信号预处理端点检测识别参数提取数字语音处理及MATLAB仿真张雪英编著102语音信号预处理语音信号预处理分帧:分帧:在实际处理时可以将语音信号分成很小的时间段在实际处理时可以将语音信号分成很小的时间

72、段(约约1030ms5,7),称之为,称之为“帧帧”,作为语音信号处理的,作为语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧。分成若干帧的过程称为分帧。预加重:预加重:对于语音信号的频谱,通常是频率越高幅值越小,对于语音信号的频谱,通常是频率越高幅值越小,在语音信号的频率增加两倍时,其功率谱的幅度下降在语音信号的频率增加两倍时,其功率谱的幅度下降6dB。因此必须对高频进行加重处理,一般是将语音信号通过一因此必须对高频进行加重处理,一般是将语音信号通过一个一阶高通滤波器个一阶高通滤波器1-0.9375z-

73、1,即为预加重滤波器,其目,即为预加重滤波器,其目的是滤除低频干扰。的是滤除低频干扰。加窗:加窗:为了保持语音信号的短时平稳性,利用窗函数来减为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的少由截断处理导致的Gibbs效应。用的最多的三种为矩形效应。用的最多的三种为矩形窗、汉明窗窗、汉明窗(Hamming)和汉宁窗和汉宁窗(Hanning)。数字语音处理及MATLAB仿真张雪英编著103几种典型的窗函数几种典型的窗函数矩形窗:矩形窗:汉明窗汉明窗(Hamming)(Hamming):哈宁窗哈宁窗(Hanning)(Hanning):1 = (0nN-1)WR = 0 = (Oth

74、er)0.5-0.46cos(2n/(N-1) (0nN-1)WHM = 0 = (Other)0.5-0.5cos(2n/(N-1) (0nN-1)0 = (Other) WHN =数字语音处理及MATLAB仿真张雪英编著104语音信号端点检测语音信号端点检测在基于在基于DTW算法的语音识别系统中,无论是训练和算法的语音识别系统中,无论是训练和建立模板阶段还是在识别阶段,都先采用端点检建立模板阶段还是在识别阶段,都先采用端点检测算法确定语音的起点和终点。语音端点检测是测算法确定语音的起点和终点。语音端点检测是指用计算机数字处理技术从包含语音的一段信号指用计算机数字处理技术从包含语音的一段信号

75、中找出字、词的起始点及结束点,从而只存储和中找出字、词的起始点及结束点,从而只存储和处理有效语音信号。处理有效语音信号。1、短时能量、短时能量2、短时过零率、短时过零率3、双门限端点检测、双门限端点检测数字语音处理及MATLAB仿真张雪英编著105短时能量短时能量:语音和噪声的主要区别在它们的能量上。语音语音和噪声的主要区别在它们的能量上。语音段的能量比噪声段的大段的能量比噪声段的大,语音段的能量是噪声段能量叠加语音段的能量是噪声段能量叠加语音声波能量的和。语音声波能量的和。短时过零率:短时过零率:短时过零表示一帧语音信号波形穿过横轴短时过零表示一帧语音信号波形穿过横轴(零电平零电平)的次数。

76、对于连续语音信号,过零意味着时域波的次数。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号则称为过零。变符号则称为过零。双门限端点检测:双门限端点检测:双门限端点检测顾名思义需要两级检测,双门限端点检测顾名思义需要两级检测,即短时能量检测和短时过零率检测。即短时能量检测和短时过零率检测。数字语音处理及MATLAB仿真张雪英编著106语音语音train_0.wav的时域分析参数的时域分析参数数字语音处理及MATLAB仿真张雪英编著107语音语音train_0.wav的端点检测结果的端点检测结果数字语音处理

77、及MATLAB仿真张雪英编著108语音识别参数的提取语音识别参数的提取经过预处理的语音数据就可以进行特征参数提取,特征参数经过预处理的语音数据就可以进行特征参数提取,特征参数的好坏将直接影响系统的性能和效率,提取出来的参数直的好坏将直接影响系统的性能和效率,提取出来的参数直接用来进行语音识别。接用来进行语音识别。对特征参数的要求:对特征参数的要求:(1)提取的特征参数能有效地代表语音特征,具有很好的)提取的特征参数能有效地代表语音特征,具有很好的区分性;区分性;(2)各阶参数之间有良好的独立性;)各阶参数之间有良好的独立性;(3)特征参数要计算方便,最好有高效的计算方法,以保)特征参数要计算方

78、便,最好有高效的计算方法,以保证语音识别的实时实现。证语音识别的实时实现。LPC与与LPCC系数系数MFCC系数系数数字语音处理及MATLAB仿真张雪英编著109LPC与与LPCC系数系数:LPC(线性预测系数线性预测系数)模拟人发音器模拟人发音器官的声管模型,是一种基于语音合成的参数模型。在语官的声管模型,是一种基于语音合成的参数模型。在语音识别系统中很少直接使用音识别系统中很少直接使用LPC系统,而是由系统,而是由LPC系数系数推出的另一种参数推出的另一种参数LPCC。LPCC(线性预测倒谱系数线性预测倒谱系数)是是LPC在倒谱域中的表示。在倒谱域中的表示。LPCC的优点是计算量小,易的优

79、点是计算量小,易于实现,对元音有较好的描述能力,缺点是对辅音描述于实现,对元音有较好的描述能力,缺点是对辅音描述能力较差。能力较差。MFCC系数:系数:人的听觉系统是一个特殊的非线性系统,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。近年来,一种能够比较充分利用人耳的这对数的关系。近年来,一种能够比较充分利用人耳的这种特殊感知特性的系数得到了广泛应用,这就是种特殊感知特性的系数得到了广泛应用,这就是Mel尺尺度倒谱系数度倒谱系数(即即MFCC)。大量研究表明,。大量研究表明,MFCC系数能系数能够

80、比够比LPCC参数更好地提高系统的识别性能。参数更好地提高系统的识别性能。数字语音处理及MATLAB仿真张雪英编著110DTW算法实现算法实现DTW(DynamicTimeWarping,动态时间规整,动态时间规整)是是语音识别中较为经典的一种算法。在实现小词语音识别中较为经典的一种算法。在实现小词汇表孤立词识别系统时,其识别率及其它指标汇表孤立词识别系统时,其识别率及其它指标与与HMM算法实现几乎等同。又由于算法实现几乎等同。又由于HMM算法算法复杂,在训练阶段需要提供大量的语音数据通复杂,在训练阶段需要提供大量的语音数据通过反复计算才能得到模型参数,而过反复计算才能得到模型参数,而DTW算

81、法本算法本身既简单又有效,因此在特定的场合下获得了身既简单又有效,因此在特定的场合下获得了广泛的应用。广泛的应用。数字语音处理及MATLAB仿真张雪英编著111DTW算法原理算法原理DTW是把时间规整和距离测度计算结合起来的一种非是把时间规整和距离测度计算结合起来的一种非线性规整技术,它寻找一个规整函数线性规整技术,它寻找一个规整函数im=(in),将,将测试矢量的时间轴测试矢量的时间轴n非线性地映射到参考模板的时间非线性地映射到参考模板的时间轴轴m上,并使该函数满足:上,并使该函数满足:D是处于最优时间规整情况下两矢量的距离。由于是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢

82、量的距离以寻找最优的匹配路不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小所对径,所以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间存在的最大声应的规整函数,这就保证了它们之间存在的最大声学相似性。算法实质为运用动态规划的思想,利用学相似性。算法实质为运用动态规划的思想,利用局部最佳化的处理来自动寻找一条路径,沿着这条局部最佳化的处理来自动寻找一条路径,沿着这条路径,两个特征矢量之间的累积失真量最小,从而路径,两个特征矢量之间的累积失真量最小,从而避免由于时长不同而可能引入的误差。避免由于时长不同而可能引入的误差。数字语音处理及MATLAB

83、仿真张雪英编著112第一讲第一讲 绪论绪论1.1.语音信号处理的概念语音信号处理的概念2.2.语音信号处理的学科基础语音信号处理的学科基础3.3.语音信号处理的分支和应用语音信号处理的分支和应用4.4.语音信号处理的发展历史语音信号处理的发展历史5.5.本课程的内容和特点本课程的内容和特点6.6.参考书目参考书目7.7.学习要求学习要求数字语音处理及MATLAB仿真张雪英编著1131.语音信号处理的概念语音信号处理的概念语音信号处理是研究用数字信号处理技术对语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。语音信号进行处理的一门学科。数字语音处理及MATLAB仿真张雪英编著11

84、42.语音信号处理的学科基础语音信号处理的学科基础语音识别语音识别声学声学信息论信息论语音、语音、语言学语言学信号信号处理处理人工人工智能智能模式模式识别识别数理数理统计统计听写机听写机查询查询系统系统电话电话拨号拨号残疾人残疾人用品用品消费消费电子电子实际应用实际应用学科基础学科基础语音识别的应用背景和学科基础语音识别的应用背景和学科基础数字语音处理及MATLAB仿真张雪英编著1153.语音信号处理的分支和应用语音信号处理的分支和应用语音识别语音识别语音合成语音合成语音编码语音编码说话人识别说话人识别数字语音处理及MATLAB仿真张雪英编著1163.1 语音识别语音识别(1)(1)语音识别研

85、究的目语音识别研究的目的就是研究出一种的就是研究出一种具有听觉功能的机具有听觉功能的机器,能直接接受人器,能直接接受人口呼的命令,理解口呼的命令,理解人的意图,并做出人的意图,并做出相应的反应。相应的反应。数字语音处理及MATLAB仿真张雪英编著117语音识别的应用语音识别的应用语音识别技术在信息处理领域的首要的巨大语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形应用将在于提供了一种全新的人机交互形式。式。苹果的苹果的Siri。Siri恶搞恶搞,国人国人Siri,Siri惊魂惊魂,Siri日式英语日式英语。语音输入法语音输入法。数字语音处理及MATLAB仿真张雪英编著

86、118语音识别的分类语音识别的分类针对说话人:特定说话人语音识别和非特针对说话人:特定说话人语音识别和非特定说话人语音识别定说话人语音识别针对词汇量:小词汇量、中词汇量和大词针对词汇量:小词汇量、中词汇量和大词汇量的识别汇量的识别针对说话方式:孤立词识别和连续语音识针对说话方式:孤立词识别和连续语音识别别针对识别环境:实验室环境语音识别、电针对识别环境:实验室环境语音识别、电话语音识别和广播语音识别话语音识别和广播语音识别数字语音处理及MATLAB仿真张雪英编著119语音信号和自然语言的多变性和复杂性语音信号和自然语言的多变性和复杂性(1) (1) 连续语音词与词之间没有明显的停顿,词与词之间

87、的连续语音词与词之间没有明显的停顿,词与词之间的 分割比较困难;分割比较困难; (2) (2) 每一个基本的声学识别基元(如音素)受前后音素发每一个基本的声学识别基元(如音素)受前后音素发 音方式的影响(协同发音)使特征变得不稳定音方式的影响(协同发音)使特征变得不稳定 (3) (3) 不同人、不同心理和生理以及在不同的说话环境下说不同人、不同心理和生理以及在不同的说话环境下说 同一词时,声学信号特征会发生变化;同一词时,声学信号特征会发生变化; (4) (4) 一个词的读音不仅包含了词义特征,而且还包含了说一个词的读音不仅包含了词义特征,而且还包含了说 话人性别、年龄、情绪等大量与词义无关的

88、信息,而话人性别、年龄、情绪等大量与词义无关的信息,而 这些信息的分离是不容易的。这些信息的分离是不容易的。 (5) (5) 自然语言的多变性难以借助于一些基本语法规则进行自然语言的多变性难以借助于一些基本语法规则进行 描述,因而使计算机编程变得困难。描述,因而使计算机编程变得困难。 (6)(6)语音信号往往受到其他信号的干扰和信道的影响。语音信号往往受到其他信号的干扰和信道的影响。数字语音处理及MATLAB仿真张雪英编著120特定 任意孤立 字 词短语句子朗读自然口语口语对话 小(几十) 中(几百) 大(几千)数字语音处理及MATLAB仿真张雪英编著1213.2 3.2 语音合成语音合成语音

89、合成是将计算机自己产生的、或外部输语音合成是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的入的文字信息转变为可以听得懂的、流利的口语输出的技术。口语输出的技术。(让电脑说话)(让电脑说话)数字语音处理及MATLAB仿真张雪英编著122语音合成的应用语音合成的应用1海量信息查询类业务海量信息查询类业务大部分海量信息如考试查分、征婚启事、人才信息、电大部分海量信息如考试查分、征婚启事、人才信息、电话广告等,由于其内容庞大,往往无法在短期内完成话广告等,由于其内容庞大,往往无法在短期内完成录音,即使可以事先录音,也需要很长的制作周期,录音,即使可以事先录音,也需要很长的制作周期,

90、而且在量大的时候肯定会出现人为错误;采用语音合而且在量大的时候肯定会出现人为错误;采用语音合成技术可以节约大量人力,缩短开发周期,而且能够成技术可以节约大量人力,缩短开发周期,而且能够完全保证了所有信息完全保证了所有信息100正确。正确。2动态信息查询类业务动态信息查询类业务声讯节目逐渐地由现在娱乐型节目为主的节目构成转向声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主,而多数的应用类节目对实时性以应用型的节目为主,而多数的应用类节目对实时性要求比较高,如证券行情、订票、订房等,上述应用要求比较高,如证券行情、订票、订房等,上述应用中动态信息不可能事先录音,需要实时地从数据库

91、中中动态信息不可能事先录音,需要实时地从数据库中读取,动态进行语音合成,保证信息的实时性。读取,动态进行语音合成,保证信息的实时性。数字语音处理及MATLAB仿真张雪英编著123自动报时、报警、公共汽车或电车自动报站自动报时、报警、公共汽车或电车自动报站打印出版过程中的文本校对。打印出版过程中的文本校对。电子函件及各种电子出版物的语音阅读。电子函件及各种电子出版物的语音阅读。 列车惊魂列车惊魂,语音合成配音,语音合成配音TomTom猫咆哮体猫咆哮体马丁路德金演讲马丁路德金演讲大脑扫描,语音合成大脑扫描,语音合成数字语音处理及MATLAB仿真张雪英编著124数字语音处理及MATLAB仿真张雪英编

92、著125语音合成的例子(语音合成的例子(霍金霍金)数字语音处理及MATLAB仿真张雪英编著126不能说话和做手势,如何演讲写字?不能说话和做手势,如何演讲写字?在霍金的眼镜上,约距右颊一英寸处,安装了负责侦在霍金的眼镜上,约距右颊一英寸处,安装了负责侦测肌肉活动的红外线发射器及侦测器,譬如他想打招测肌肉活动的红外线发射器及侦测器,譬如他想打招呼,说声呼,说声你好你好,他先以眼球控制红外线感应器,选,他先以眼球控制红外线感应器,选定在屏幕上轮流出现的英文字母,当计算机出现他想定在屏幕上轮流出现的英文字母,当计算机出现他想要的要的H时,霍金再动眼球,这样计算机就会不断显时,霍金再动眼球,这样计算机

93、就会不断显示以示以H为字头的英文字,当为字头的英文字,当HELLO出现时,他又出现时,他又动一下以选定这个字,当他造句完毕后,才把句子传动一下以选定这个字,当他造句完毕后,才把句子传至合成器发声。因此霍金要说一句话,就要逐字逐句至合成器发声。因此霍金要说一句话,就要逐字逐句输入计算机,再由语音合成器将文字化成声音,一分输入计算机,再由语音合成器将文字化成声音,一分钟只能处理钟只能处理3-5个字。个字。数字语音处理及MATLAB仿真张雪英编著127科大讯飞语音合成在线演示科大讯飞语音合成在线演示http:/ 3.3 语音编码语音编码 语音编码的研究目语音编码的研究目的是如何在尽量减的是如何在尽量

94、减少失真的情况下高少失真的情况下高效率地对模拟语音效率地对模拟语音信号进行数字表达。信号进行数字表达。VOIP(VoiceOverInternetProtocol)数字语音处理及MATLAB仿真张雪英编著129语音编码的应用语音编码的应用数字通信系统数字通信系统移动无线通信移动无线通信保密语音通信保密语音通信数字语音处理及MATLAB仿真张雪英编著1303.4 3.4 说话人识别说话人识别 说话人识别(声纹识别)说话人识别(声纹识别)可分为两种:可分为两种:l说话人辨认说话人辨认l说话人确认说话人确认 数字语音处理及MATLAB仿真张雪英编著131目前,声纹识别已经在证券交易、银行交易、身份证

95、、目前,声纹识别已经在证券交易、银行交易、身份证、信用卡的认证等领域均有应用。在国外,声纹识别信用卡的认证等领域均有应用。在国外,声纹识别技术已经取得了较为广泛的应用。美国已把声纹识技术已经取得了较为广泛的应用。美国已把声纹识别用到保险、银行等行业,迪拜在交通管理上使用别用到保险、银行等行业,迪拜在交通管理上使用声纹验证来确认驾驶员身份,戴尔公司已经实施了声纹验证来确认驾驶员身份,戴尔公司已经实施了声纹认证用于网上订购,菲律宾政府的养老金系统声纹认证用于网上订购,菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证。现在也可以通过声纹识别来完成身份认证。在国内,声纹识别技术目前已广泛应用

96、于嵌入式系统,在国内,声纹识别技术目前已广泛应用于嵌入式系统,同时其他方面的应用也逐渐兴起,如招商银行已经同时其他方面的应用也逐渐兴起,如招商银行已经于于2008年年8月开始与以色列的月开始与以色列的PerSay公司进行声纹公司进行声纹识别方面的项目合作。识别方面的项目合作。数字语音处理及MATLAB仿真张雪英编著132声纹识别已成功应用在司法鉴定领域。利用声纹声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据,如通过分析电话录音识别技术确定犯罪证据,如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做资料来确定犯罪嫌疑人的身份和犯罪行为等做法,已在一些刑事案件的侦破中得到应

97、用。美法,已在一些刑事案件的侦破中得到应用。美国在国在1971年就公开认可使用声纹鉴定。年就公开认可使用声纹鉴定。在国内,随着各种录音设备的普及,声音材料的在国内,随着各种录音设备的普及,声音材料的留存十分方便,因此一些案件就可以借助声纹留存十分方便,因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理。声纹鉴定已经鉴定来协助案件的侦查和审理。声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段,成为国内司法鉴定机构的一种重要技术手段,其在司法活动的某些方面已然发挥出显著的作其在司法活动的某些方面已然发挥出显著的作用。用。数字语音处理及MATLAB仿真张雪英编著133数字语音处理及MATLAB仿

98、真张雪英编著134数字语音处理及MATLAB仿真张雪英编著135声纹识别的应用声纹识别的应用还杰克逊一个还杰克逊一个“清白清白”。爆炸新闻爆炸新闻拉登之死。拉登之死。车臣总统杜达耶夫。车臣总统杜达耶夫。数字语音处理及MATLAB仿真张雪英编著1364.语音信号处理的发展历史语音信号处理的发展历史国外发展历史国外发展历史人们在人们在19世纪就已经发现,元音主要是靠第一世纪就已经发现,元音主要是靠第一共振峰和第二共振峰来区别,声母的感知主要共振峰和第二共振峰来区别,声母的感知主要靠共振峰的弯曲方向和力度。但是,真正的语靠共振峰的弯曲方向和力度。但是,真正的语音识别却是始于音识别却是始于1952年,

99、当时贝尔实验室年,当时贝尔实验室Davis等人通过提取语音的第一、第二共振峰作等人通过提取语音的第一、第二共振峰作为语音特征参数,采用专用硬件实现了一台为语音特征参数,采用专用硬件实现了一台10个英文数字的语音识别系统个英文数字的语音识别系统AudrySystem。数字语音处理及MATLAB仿真张雪英编著137国外发展历史国外发展历史20世纪世纪50年代末年代末60年代初,集成电路出现,语音信年代初,集成电路出现,语音信号终端系统从号终端系统从模拟方式演变为全数字系统方式模拟方式演变为全数字系统方式,语音数字信号处理从此开始。最早从事此项重要语音数字信号处理从此开始。最早从事此项重要技术变革的

100、技术变革的实验室有贝尔电话实验室、麻省理工实验室有贝尔电话实验室、麻省理工学院林肯实验室、学院林肯实验室、IBMThomasWatson研究实验研究实验室、室、BBN语音研究小组和得克萨斯仪器公司,以语音研究小组和得克萨斯仪器公司,以及一些著名的大学研究小组。及一些著名的大学研究小组。1959年,美国林肯实验室的年,美国林肯实验室的J.W.Rogie和和C.D.Forgie首次用数字计算机识别出了英语元音和以摩擦音首次用数字计算机识别出了英语元音和以摩擦音开头的孤立字,标志着计算机语音识别时代的开开头的孤立字,标志着计算机语音识别时代的开始。始。数字语音处理及MATLAB仿真张雪英编著138国

101、外发展历史国外发展历史20世纪世纪60年代,快速傅立叶变换(年代,快速傅立叶变换(FFT)技术被广)技术被广泛地采用来进行频谱分析,采用其逆变换,还可泛地采用来进行频谱分析,采用其逆变换,还可以反求源信号。在傅立叶分析的帮助下,人们开以反求源信号。在傅立叶分析的帮助下,人们开始研究自然语音产生的内在机制和本质特征。始研究自然语音产生的内在机制和本质特征。瑞典的瑞典的G.Fant的博士论文的博士论文语音产生的声学理论语音产生的声学理论就是这个时期的代表作,对以后的语音处理的研就是这个时期的代表作,对以后的语音处理的研究工作产生了深刻的影究工作产生了深刻的影响。响。数字语音处理及MATLAB仿真张

102、雪英编著139国外发展历史国外发展历史20世纪世纪60年代末年代末70年代初年代初Baum等人首次系统地阐等人首次系统地阐述了马尔可夫模型(述了马尔可夫模型(HMM,HiddenMarkovModel),并把它引入语音识别。目前,),并把它引入语音识别。目前,HMM模模型是语音识别的最好算法,它也广泛应用于经济型是语音识别的最好算法,它也广泛应用于经济学上的预测问题。学上的预测问题。与此同时,语音识别的线性预测参数与此同时,语音识别的线性预测参数LPC首次被提首次被提出来,采用线性预测进行研究的实践开始。以后出来,采用线性预测进行研究的实践开始。以后的低速率语音编码技术,很大程度上都是依靠线的

103、低速率语音编码技术,很大程度上都是依靠线性预测进行来实现的。性预测进行来实现的。数字语音处理及MATLAB仿真张雪英编著140国外发展历史国外发展历史同时,动态时间弯曲同时,动态时间弯曲DTW技术出现,有效的解技术出现,有效的解决了语音识别过程中,不等音长的匹配问题。决了语音识别过程中,不等音长的匹配问题。此时的许多系统,都是建立在此时的许多系统,都是建立在LPC参数和参数和DTW匹配技术基础上的孤立词识别系统。匹配技术基础上的孤立词识别系统。美国国防部高级计划研究局(美国国防部高级计划研究局(ARPAR)的语音)的语音识别和理解研究计划,产生了识别和理解研究计划,产生了HAPPY,HEARS

104、AY-II和和DRAGON等典型的语音识别理等典型的语音识别理解系统,提出了具有深远意义的知识源黑板模解系统,提出了具有深远意义的知识源黑板模型,扩充转移网络(型,扩充转移网络(ATN)算法等。)算法等。数字语音处理及MATLAB仿真张雪英编著141国外发展历史国外发展历史20世纪世纪80年代贝尔实验室年代贝尔实验室Rabiner等人对等人对HMM模型进行了深入浅出的介绍,从此以后模型进行了深入浅出的介绍,从此以后HMM模型在语音识别领域里确立了不可替代的地位,模型在语音识别领域里确立了不可替代的地位,成为目前世界各国从事语音处理的最有效成为目前世界各国从事语音处理的最有效的方的方法。法。矢量

105、量化法矢量量化法VQ也在此时开始应用到语音识别中。也在此时开始应用到语音识别中。1987年,年,IBM公司采用公司采用VQ/HMM方案实现了方案实现了一个具有一个具有2000个孤立字的特定人语音识别模型个孤立字的特定人语音识别模型系统系统Tangora-2000。1988年年CMU同样采用同样采用VQ/HMM实现了一个具有实现了一个具有977个词,并且能构个词,并且能构成成4200个句子的非特定人连续语音识别系统个句子的非特定人连续语音识别系统SPHINX。数字语音处理及MATLAB仿真张雪英编著142国外发展历史国外发展历史20世界世界90年代,语音识别开始从实验室走向市场。年代,语音识别开

106、始从实验室走向市场。CMU、BBN、IBM和和AT&T都推出自己的语音都推出自己的语音识别产品。识别产品。Microsoft、Apple、Toshiba、Philips和和Intel不甘落后,也开始致力于语音识不甘落后,也开始致力于语音识别系统开发。语音识别朝着大词汇量、非特定别系统开发。语音识别朝着大词汇量、非特定人、自然连续语音方向发人、自然连续语音方向发展。目前,展。目前,MicrosoftOfficeXP以上版本已经集成了语音以上版本已经集成了语音识别功能,可以采用语音输入法输入汉字。识别功能,可以采用语音输入法输入汉字。数字语音处理及MATLAB仿真张雪英编著143国外主要的研究单位

107、:国外主要的研究单位:美国的美国的CMUCMU(卡内基梅隆大学)、(卡内基梅隆大学)、MITMIT(麻省理(麻省理工学院)、工学院)、IBMIBM、美国电报电话公司、美国电报电话公司AT&TAT&T英国的英国的Cambridge Cambridge (剑桥大学)(剑桥大学)数字语音处理及MATLAB仿真张雪英编著144国内发展历史国内发展历史20世界世界50年代,中科院声学所开始进行语年代,中科院声学所开始进行语音识别研究。音识别研究。1972年,俞铁城先生最早年,俞铁城先生最早在计算机上研究语音识别。中国语音识在计算机上研究语音识别。中国语音识别的真正的开端应该是别的真正的开端应该是1978

108、年,中科院年,中科院声学所实现的采用带通滤波器组参数为声学所实现的采用带通滤波器组参数为特征的语音识别系统特征的语音识别系统RTSRS(01)的产)的产生。生。数字语音处理及MATLAB仿真张雪英编著145国内发展历史国内发展历史20世界世界80年代,针对汉语单音节的特点,清年代,针对汉语单音节的特点,清华大学、中国科学院、北方交通大学、东华大学、中国科学院、北方交通大学、东南大学等开发了汉语特定人孤立字全音节南大学等开发了汉语特定人孤立字全音节语音识别系统。语音识别系统。清华大学王作英教授提出了清华大学王作英教授提出了DDBHMM模型。模型。1986年,国家年,国家863项目语音方向设立,俞

109、铁城项目语音方向设立,俞铁城先生受命筹备此项研究计划。先生受命筹备此项研究计划。数字语音处理及MATLAB仿真张雪英编著146国内发展历史国内发展历史目前,我国语音识别队伍主要有北大、清华、目前,我国语音识别队伍主要有北大、清华、中科院等。其中中科院声学所的人员大部中科院等。其中中科院声学所的人员大部分是原分是原Intel资深的工程师,因此在国内的资深的工程师,因此在国内的语音识别领域一直遥遥领先。语音识别领域一直遥遥领先。国内一些大公司,例如诺基亚、摩托罗拉、国内一些大公司,例如诺基亚、摩托罗拉、松下电器等,松下电器等,也致力于语音识别领域的研也致力于语音识别领域的研究。社科院长期进行实验语

110、音学方面的研究。社科院长期进行实验语音学方面的研究。究。数字语音处理及MATLAB仿真张雪英编著147国内发展历史国内发展历史目前,国际和国内在实验室条件下的识别正确率均在目前,国际和国内在实验室条件下的识别正确率均在90以上。实验室条件一般是采用高保真的以上。实验室条件一般是采用高保真的Sennheiser麦克风录制的语音信号,信道扭曲非常小,麦克风录制的语音信号,信道扭曲非常小,几乎没有任何背景噪音。标准的数据库有几乎没有任何背景噪音。标准的数据库有TIMIT数数据库等。据库等。1991年年2月月NIST(NationalInstituteOfStandardsAndTechnology)

111、的测试报告结果,如果不考虑语法约的测试报告结果,如果不考虑语法约束,识别正确率为束,识别正确率为80多;考虑语法约束后,识别率多;考虑语法约束后,识别率提高到提高到90以上。这些都是非常喜人的成果。以上。这些都是非常喜人的成果。然而,这些结果都是在高质量的实验条件下获得的。然而,这些结果都是在高质量的实验条件下获得的。实验证明,当语音数据简单地通过电话线传播后,识实验证明,当语音数据简单地通过电话线传播后,识别正确率将会直线下跌。别正确率将会直线下跌。数字语音处理及MATLAB仿真张雪英编著148国内发展历史国内发展历史1995年,林肯实验室将年,林肯实验室将TIMIT数据库(实数据库(实验室

112、条件)和验室条件)和NTIMIT数据库(数据库(TIMIT数据库通过电话传输录音)作了一次说数据库通过电话传输录音)作了一次说话人识别的对比,结果表话人识别的对比,结果表明,当实验对明,当实验对象简单经过电话信道传输后,识别正确象简单经过电话信道传输后,识别正确率由原先接近率由原先接近100急速下降到急速下降到60多。多。如何在自然环境下令人满意的进行语音如何在自然环境下令人满意的进行语音识别,依旧是国内外语音学家一个艰巨识别,依旧是国内外语音学家一个艰巨的任务。的任务。数字语音处理及MATLAB仿真张雪英编著149国内发展历史国内发展历史2003年,从世界主要语音识别机构电话对年,从世界主要

113、语音识别机构电话对话录音识别率基本是保持在话录音识别率基本是保持在70-80之间。之间。数字语音处理及MATLAB仿真张雪英编著150国内发展历史国内发展历史2004年,我国年,我国863评测(评测结果可以看评测(评测结果可以看863评测评测网站)小组对国内主要机构再次进行评测,测网站)小组对国内主要机构再次进行评测,测试集取样于马路边嘈杂环境,最低信噪比大约试集取样于马路边嘈杂环境,最低信噪比大约5分贝。在如此恶劣条件下,在内容识别方面,分贝。在如此恶劣条件下,在内容识别方面,中科院声学所和自动化所均取得了约中科院声学所和自动化所均取得了约74的正的正确率,清华大学取得约确率,清华大学取得约

114、50的正确率,其他院的正确率,其他院校最差的取得校最差的取得9的正确率。的正确率。其中,中科院的识别水平已经比较接近国际先进其中,中科院的识别水平已经比较接近国际先进水平,清华北大距离国际先进水平还有一定距水平,清华北大距离国际先进水平还有一定距离,多数高校则远远未达到实用的要求。离,多数高校则远远未达到实用的要求。数字语音处理及MATLAB仿真张雪英编著151国内主要研究机构国内主要研究机构中科院声学所中科院声学所中科院自动化所中科院自动化所清华大学清华大学哈尔滨工业大学哈尔滨工业大学中国科技大学中国科技大学东南大学东南大学数字语音处理及MATLAB仿真张雪英编著1525.5.本课程的内容和

115、特点本课程的内容和特点绪论绪论语音信号处理的基础知识语音信号处理的基础知识语音信号分析语音信号分析矢量量化技术矢量量化技术隐马尔可夫模型隐马尔可夫模型语音编码语音编码语音合成语音合成语音识别语音识别语音增强语音增强本课程的特点n内容不断更新n涉及的前沿知识较多,基础知识也广泛。数字语音处理及MATLAB仿真张雪英编著1536.6.参考书目参考书目语语音音信信号号处处理理易易克克初初、田田斌斌、付付强强编编著著. .国国防防工工业出版社,业出版社,20002000语语音音信信号号处处理理胡胡航航编编著著. .哈哈尔尔滨滨工工业业大大学学出出版版社社,20002000语音信号处理语音信号处理韩纪庆

116、韩纪庆, ,张磊张磊, ,郑铁然,清华郑铁然,清华大学出版社大学出版社20042004语语音音信信号号数数字字处处理理作作者者:杨杨行行峻峻,迟迟惠惠生生著著,电子工业出版社,电子工业出版社,19951995LawrenceRabiner,Bing-HwangJuang:“FUNDAMENTALSOFSPEECHRECOGNITION”,( (影影印印版版) )清清华华大大学学出出版社,版社,19991999数字语音处理及MATLAB仿真张雪英编著1547.7.学习要求学习要求掌握书中基本内容掌握书中基本内容会查阅资料会查阅资料会看文献会看文献会研究问题会研究问题数字语音处理及MATLAB仿真

117、张雪英编著155教材、杂志、会议论文教材、杂志、会议论文硕、博论文库、学术期刊网硕、博论文库、学术期刊网、.hk专著、专利、内部技术报告专著、专利、内部技术报告国内杂志:国内杂志:声学学报、电子学报、自动化学报、数据采集与处理、声学学报、电子学报、自动化学报、数据采集与处理、人工智能人工智能国外杂志国外杂志 Speech Communication Speech Communication 、Signal Processing Signal Processing 会会 议议 论论 文文 IEEEIEEE Institute Institute for for Electrical Electr

118、ical and and Electronic Electronic Engineers Engineers ICASSP ICASSP Internal Internal conference conference on on acoustics acoustics speech speech signal signal processing processing ICSLP Internal conference of spoken language processingICSLP Internal conference of spoken language processingEUROS

119、PEECHEUROSPEECH数字语音处理及MATLAB仿真张雪英编著156语音信号处理与识别语音信号处理与识别一、语音识别概述一、语音识别概述二、语音识别系统基本原理二、语音识别系统基本原理三、预处理及特征参数提取三、预处理及特征参数提取四、模板匹配技术及相似性判断方法四、模板匹配技术及相似性判断方法五、语音识别系统的设计和实现五、语音识别系统的设计和实现数字语音处理及MATLAB仿真张雪英编著157语音识别概述语音识别概述 让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。伴随计算机技术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进入我们日常的生活,并迅速发展成为

120、“改变未来人类生活方式厅的关键技术之一。 语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方向 。其最终目标是实现人与机器进行自然语言通信。发展和现状:发展和现状: 20世纪50年代,AT&TBell(贝尔)研究所成功研制了世界上第一个能识别10个英文数字的语音识别系统一Audry系统,这标志着语音识别研究的开始。60年代计算机的应用推动了语音识别的发展。这一时期的重要成果是动态规划(DynamicProgramming,DP)和线性预测分析(LinearPredictive)技术。其中后者较好的解决了语音信号产生的模型问题,对语音识别产生了深远的影响。数字语音处理及MATLAB

121、仿真张雪英编著158语音识别概述语音识别概述70年代语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术(DTW)的基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,小词汇量孤立词的识别方面取得了实质性的进展,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。这一时期的语音识别方法基本上是采用传统的模式识别策略。80年代语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBel实验室的Rabiner等科学家的努力,他们把HMM纯数学模型工程化,从而为

122、更多研究者了解和认识。研究的重点逐渐转向大词汇量、非特定人连续语音识别。90年代,随着多媒体时代的来临,在语音识别技术的应用及产品化方面出现了很大的进展。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的实用化开发投以巨资。语音识别技术实用化进程大大加速,并出现了许多实用化产品。IBM公司率先推出的汉语ViaVoice语音识别系统,带有一个32,000词的基本词汇表,可以扩展到65,000词,平均识别率可以达到95%,可以识别上海话、广东话和四川话等地方口音,是目前具有代表性的汉语连续语音识别系统。数字语音处理及MATLAB仿真张雪英编著159语

123、音识别概述语音识别概述21世纪语音识别技术的应用及产品化方面进一步发展。在语音识别产品方面,各大公司纷纷推出自己产品。目前世界上最先进的语音识别软件,既不是微软生产的,也非IBM制造,它的名字叫做NaturallySpeaking,出自于NuanceCommunications公司。NaturallySpeaking己经得到了大多数用户的认可。用户对着麦克风说话,屏幕上就显示出说话的内容,很容易识别和纠正错误.久而久之,该软件就会适应用户的说话风格。我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专

124、家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统,识别精度达到了94.8%(不定长数字串)和96.8%(定长数字串).数字语音处理及MATLAB仿真张雪英编著160语音识别概述语音识别概述语音识别系统分类:语音识别系统分类: 从说话者与识别系统的相关性分:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别,

125、与说话的语种没有关系;(2)非特定人语音识别系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识别的语言取决于采用的训练语音库;(3)多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常可以识别三到五个人的语音。从说话的方式分:(1)孤立词语音识别系统:其输入系统要求输入每个词后要停顿;(2)连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出现一些连音现象;(3)连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连音和变音。另外从识别系统的词汇量大小分:小词汇量语音识别系统(几十个词);中等词汇量语音识别系统(几百到上千个

126、词);大词汇量语音识别系统(几千到几万个词)。数字语音处理及MATLAB仿真张雪英编著161语音识别概述语音识别概述语音识别的基本方法语音识别的基本方法: :一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。(1)语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段.(2)模板匹配的方法模板匹配的方法发展比较成熟,目前己达到了实用阶段。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。(3)神经网络的方法基于ANN的语

127、音识别系统通常由神经元、训练算法及网络结构等三大要素构成。由于基于神经网络的训练识别算法由于实现起来较复杂,目前仍只是处于实验室研究阶段。数字语音处理及MATLAB仿真张雪英编著162语音识别概述语音识别概述目前语音识别的研究主流是大词汇量的非特定人的连续语音系统,但是事实上,对于许多应用来说,一个语音识别系统只要一组词汇或命令,它就可能为用户提供一个有效的工具,简单有效的孤立词特定人语音识别系统就能满足要求。正是孤立词特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它进行研究 目前市场上出现的语音识别器大多数是特定人孤立单词语音识别系统。孤立词语音识别系统中的难点问题:孤立词语音识别

128、系统中的难点问题: (1) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的差异,即使同一人同一语音的不同次发音,也存在很大差异。 (2) 噪声影响 当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致语音识别系统性能急剧下降。 (3) 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境下有声段和无声段时能量存在很大差异,由此判断语音的起点。但是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误。数字语音处理及MATLAB仿真张雪英编著163语音识别概述语音识别概述 (4) 词与词的特征空间混叠 语音识别的

129、常规方法是利用语音信号的短时周期特性将语音时域采样信号分为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同一词语的不同次发音,从而降低识别率。数字语音处理及MATLAB仿真张雪英编著164语音识别系统基本原理语音识别系统基本原理语音信号产生模型语音信号产生模型 语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的音来说,激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然

130、释放。 语音生成系统分为三个部分,在声门(声带)以下,称为声门子系统,它产生激励振动,是激励系统:从声门到嘴唇的呼气通道是声道系统:语音从嘴唇辐射出去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联表示。数字语音处理及MATLAB仿真张雪英编著165语音信号产生的时域模型语音信号产生的时域模型语音识别系统基本原理语音识别系统基本原理数字语音处理及MATLAB仿真张雪英编著166语音识别系统基本原理语音识别系统基本原理语音信号分析基础语音信号分析基础 语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、语谱分析等。 语音信号是一

131、种典型的非平稳信号。语音的形成过程与发音器官的运动密切相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号可假定为短时平稳的,其频谱特性和某些物理参数在10-30ms时间段内是近似不变的,对语音信号进行处理都是基于这个假设 语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等,这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤波器组参数、线性预测系数(LPC)、线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、线谱对参数(LinearSpectrumPair,LSP),MEL频率倒谱系数(Mel-Freque

132、ncyCepstrumCoefficient,MFCC)等.数字语音处理及MATLAB仿真张雪英编著167语音识别系统基本构成语音识别系统基本构成语音识别系统基本原理语音识别系统基本原理数字语音处理及MATLAB仿真张雪英编著168语音识别系统基本原理语音识别系统基本原理预处理预处理 预处理部分包括语音信号的采样、反混叠滤波、语音增强,去除声门激励和口唇辐射的影响以及噪声影响等,预处理最重要的步骤是端点检测。特征提取特征提取 特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数,如平均能量、过零数、共振峰、倒谱、线性预测系数等,以便训练和识别。参数的选择直接关系着语音识

133、别系统识别率的高低。训练训练 训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。模式匹配模式匹配 模式匹配部分是整个系统的核心,其作用是按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。数字语音处理及MATLAB仿真张雪英编著169预处理及特征参数提取预处理及特征参数提取语音信号的数字化和预处理语音信号的数字化和预处理 1 1、语音信号数字化 要了分析说话人的语音,就要将话筒中传来的语音信号转换成计算机所能处理的数字信号。通过对语音信号特性的分析表明,浊音语音的频谱一般在4KHz以上

134、便迅速下降。而清音语音信号的频谱在4KHz以上频段反而呈上升趋势,甚至超过了8KHz以后仍没有明显下降的苗头。实验表明语音清晰度和可懂度有明显影响的成分最高频率约为5.7KHz。而语音信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为10KHz或16KHz。 2、预加重为了消除声门激励和口鼻辐射的影响,需要对语音信号作预加重理。它的目的在于消除低频干扰尤其是50Hz的工作频率干扰,将对语音识别更为有用的高频部分的频谱进行提升。使信号的频谱变的平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析。 预加重数字滤波器一般是一阶

135、的数字滤彼器: ,其中u的取值一般介于0.93和0.98之间。数字语音处理及MATLAB仿真张雪英编著170预处理及特征参数提取预处理及特征参数提取 3 3、语音分帧 语音信号常常可假定为短时平稳的,即在10-20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样就可以采用平稳过程的分析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧再加以处理。分帧可以采用连续分段的方法,也可采用交叠分段的方法。一般采用交叠分段的方法,即帧与帧之间有交叠,交叠的目的是使帧与帧之间平滑过渡,保持其连续性。语音信号处理的帧长一般取20ms数字语音处理及MATLAB仿真张

136、雪英编著171为了减小语音帧的截断效应,需要加窗处理:为了减小语音帧的截断效应,需要加窗处理:矩形窗:矩形窗:Hamming:Hann:矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,汉明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。预处理及特征参数提取预处理及特征参数提取数字语音处理及MATLAB仿真张雪英编著172预处理及特征参数提取预处理及特征参数提取语音信号的时域分析语音信号的时域分析 1 1、短时平均能量 短时平均能量反映了语音振幅或能量随着时间缓慢变化的规律。可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大

137、很多。其计算公式如下: 2、短时过零率 短时过零率表示一帧语音中语音信号波形穿过横轴的次数。对于连续信号,过零率意味着时域波形通过时间轴;在离散时间信号情况下,当相邻的两次抽样具有不同的代数符号时就称为发生了过零.应用短时平均过零率可以得到谱特性的粗略估计。短时平均过零率的定义为:浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。数字语音处理及MATLAB仿真张雪英编著173预处理及特征参数提取预处理及特征参数提取数字语音处理及MATLAB仿真张雪英编著174预处理及特征参数提取预处理及特征参数提取 3 3、端点检测端点检测的目的就是从连续的声音

138、中间检测出每一段语音的起始点和终止点,从而达到节省系统资源,方便实时分析的效果。此外,端点检测的好坏还将直接影响孤立词识别率的高低。双门限前端检测算法是经典的起止点检测算法,这种端点检测技术主要利用短时过零率特征和每帧的平均幅值特征来判断语音信号的起止点,采用矩形窗进行分帧。数字语音处理及MATLAB仿真张雪英编著175预处理及特征参数提取预处理及特征参数提取端点检测效果图端点检测效果图数字语音处理及MATLAB仿真张雪英编著176预处理及特征参数提取预处理及特征参数提取语音信号的特征参数提取语音信号的特征参数提取提取特征参数满足的要求: 1、能有效地代表语音特征,具有很好的区分性 2、参数间

139、有良好的独立性 3、特征参数要计算方便,要考虑到语音识别的实时实现常用的特征参数包括:线性预测系数(LPC);线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC);MEL频率倒谱系数(Mel-FrequencyCepstrumCoefficient,MFCC)。 数字语音处理及MATLAB仿真张雪英编著177预处理及特征参数提取预处理及特征参数提取倒谱介绍倒谱介绍 倒谱定义为时间序列的z变换的模的对数的逆z变换:倒谱分析的基础是假设语音是激励函数与声道冲激响应的卷积。语音的倒谱实际上是将语音的频谱(短时谱)取对数后再进行逆傅里叶变换(实际上代之以

140、DFT)得到的。因此,声道滤波器对于倒谱的贡献将表现为=0附近的峰起;而周期性脉冲激励对倒谱的贡献将表现为具有同样周期的冲击。数字语音处理及MATLAB仿真张雪英编著178预处理及特征参数提取预处理及特征参数提取线性预测系数线性预测系数(LPC) 语音的线性预测基本思想是:语音信号的每个取样值可以用它过去的若干个语音的线性预测基本思想是:语音信号的每个取样值可以用它过去的若干个取样值的线性组合来表示;各加权系数的确定原则是使预测误差的均方值最小。取样值的线性组合来表示;各加权系数的确定原则是使预测误差的均方值最小。如果利用过去如果利用过去p p个取样值来进行预测,称为个取样值来进行预测,称为p

141、 p阶线性预测。阶线性预测。假设前提:假设前提:语音信号可以看成是一个线性时变系统在准周期脉冲序列(相当于浊音)或语音信号可以看成是一个线性时变系统在准周期脉冲序列(相当于浊音)或随即噪声(相当于清音)激励下所产生的输出。对于除鼻音和摩擦音以外的大多随即噪声(相当于清音)激励下所产生的输出。对于除鼻音和摩擦音以外的大多数语音来说,时变线性系统都可以用一个全极点系统来表示。这个全极点时变系数语音来说,时变线性系统都可以用一个全极点系统来表示。这个全极点时变系统的参数随着时间的变化是非常缓慢的,在一帧语音时间内可以近似地认为它是统的参数随着时间的变化是非常缓慢的,在一帧语音时间内可以近似地认为它是

142、非时变的。这样就可以根据该信号过去的非时变的。这样就可以根据该信号过去的p p个取样值对信号的当前值进行预测,个取样值对信号的当前值进行预测,而且在均方误差最小的意义上这种预测是最佳的,预测系数必将等于全极点系统而且在均方误差最小的意义上这种预测是最佳的,预测系数必将等于全极点系统的参数。的参数。数字语音处理及MATLAB仿真张雪英编著179预处理及特征参数提取预处理及特征参数提取线性预测倒谱系数线性预测倒谱系数(LPCC) 通过线性预测得到全极点系统函数为: 倒谱定义为时间序列的z变换的模的对数的逆z变换。因此线性预测倒谱可表示为: LPCC系数主要是模拟人的发声模型,未考虑人耳的听觉特性,

143、它对元音有较好的描述能力,对辅音描述能力及抗噪性能比较差,其优点是计算量小,易于实现。数字语音处理及MATLAB仿真张雪英编著180预处理及特征参数提取预处理及特征参数提取MEL频率倒谱系数频率倒谱系数MFCCMFCC参数是目前大多数语音识别系统中广泛使用的特征参数,它是基于人耳的听觉特性。人耳对声音音调的感受与其频率并不成线性关系。而Mel倒谱尺寸,则更符合人耳的听觉特性。Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用下式表示: MFCC的计算流程可以简单的概括为以下五个步骤:1、分帧2、DFT计算谱系数3、对谱系数的幅值取log4、将3中的结果

144、转化到Mel 频标下5、做DCT变换MFCC与基于线性预测的LPCC相比,其突出优点是不依赖全极点语音产生模型的假定,因而在噪声环境下表现出更强的鲁棒性,在非特定人语音识别方面有利于减小因说话人不同的差异可能带来的影响。不足之处是MFCC方法中多次用到FFT,故算法的复杂程度远大于LPCC方法。数字语音处理及MATLAB仿真张雪英编著181Mel滤波器组预处理及特征参数提取预处理及特征参数提取数字语音处理及MATLAB仿真张雪英编著182语音模板及相似性判断方法语音模板及相似性判断方法模板训练方法模板训练方法 偶然性训练方法 每个单词的每一遍读音形成一个模板,在识别时,待识别语音特征矢量序列用

145、特定的匹配算法分别求得与每个模板的累计失真,然后判别它属于哪一类。 鲁棒性训练方法 将每一个词重复说多遍,直到得到一个一致性较好的特征矢量序列。最终得到的模板是在一致性较好的特征矢量序列。 聚类训练法 对于非特定人语音识别,要想获得较高的识别率,就需要对多组训练数据进行聚类,以获得可靠的模板参数。比如矢量量化方法(VQ)。数字语音处理及MATLAB仿真张雪英编著183语音模板及相似性判断方法语音模板及相似性判断方法模式匹配方法模式匹配方法 基于动态模板匹配技术的DTW识别法 动态时间弯折(DTW)基于动态规划的思想,解决了发音长短不一的匹配问题,是语音识别中出现较早、较为经典的一种算法。数字语

146、音处理及MATLAB仿真张雪英编著184语音模板及相似性判断方法语音模板及相似性判断方法模式匹配方法模式匹配方法基于聚类理论的矢量量化(VQ)识别法矢量量化是将n维欧氏空间中的矢量按某种准则用有限个矢量来表示。在矢量量化理中,称为输入矢量,称为量化矢量、码字或码矢,称为码书或码本,码字数目k称为码本大小。码本设计常采用LBG算法数字语音处理及MATLAB仿真张雪英编著185语音模板及相似性判断方法语音模板及相似性判断方法矢量量化示例:矢量量化示例:数字语音处理及MATLAB仿真张雪英编著186语音模板及相似性判断方法语音模板及相似性判断方法模式匹配方法模式匹配方法基于随机过程理论的HMM模型人

147、的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程,它对语音信号的时间序列建立统计模型,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。基于神经网络识别法人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入一输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。数字语音处理及MATLAB仿真张雪英编著187语音模板及相似性判断方法语音模板及相似性判断方法语音识别中常用的特征及失真测度语音识别中常用的特征及失真测度特征参数特征参数失真测度失真测度线性预测系数线性预测系数(LPC)增益归一化似然比失真测度增益归一化似然比失真测度线性预测倒谱系数线性预测倒谱系数(LPCC)(加权加权)倒谱欧氏距离测量倒谱欧氏距离测量Mel频率倒谱系数频率倒谱系数(MFCC)(加权加权)倒谱欧氏距离测量倒谱欧氏距离测量数字语音处理及MATLAB仿真张雪英编著188语音语音4 4单词识别结果单词识别结果数字语音处理及MATLAB仿真张雪英编著189Thank you!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号