语音识别概述－金锄头文库

资源描述

《语音识别概述》由会员分享，可在线阅读，更多相关《语音识别概述（19页珍藏版）》请在金锄头文库上搜索。

1、第一章语音识别概述引言随着科技的不断发展进步，各种终端设备的智能化和集成化程度越来越高，终端设备的体积越来越小，而集成的功能却越来越丰富，越来越贴近人们的需求。但是终端设备的发展也同时面临着一些问题。随着各种设备存储和接收信息的海量增加，以及设备功能的增加，传统的信息检索和菜单操作方式已经越来越无法满足要求，迫切需要有一种更加便捷的信息检索和命令操作方式来替代传统的按键操作。我们知道传统的信息检索是通过按键输入我们要检索的内容，然后由设备检索出需要的内容，这还是比较先进的方式，更有甚者，需要以手动逐条浏览的方式检索，如我们知道我们每次通过手机来查找联系人时都要花好长的时间翻通讯录

2、。而在功能方面，当我们想使用手机的一些功能时，必须通过层层菜单，经过一步步的按键选择查找我们需要的命令，达到目的。这些操作都非常耗时，并且很复杂。在一些特殊的环境下，使用存在安全隐患。典型的，我们都知道在驾车环境下，驾驶员必须集中精力于前方道路和驾驶，此时，如果用眼睛来看汽车仪表盘上的各种屏幕，就会存在危险，尤其是导航设备，如果驾驶员一边驾车，一边盯着导航设备的屏幕，就会威胁到驾驶员和行人的生命安全。另外，在一些复杂的作业环境下，当使用仪表时，如果专注于仪表读数，就可能给操作者带来危险。此外，终端设备的体积越来越小，造成屏幕小，显示文字较小，并且文字数量有限，从而给阅读信息带来了

3、问题，例如手机用户，我们必须把手机拿的离眼睛很近才能看清短信的内容，特别是在行动的情况下，我们都知道，当我们看手机短信时，如果在路上，一般都要停下来才能看清短信内容。就算在行走的状态下能够看清楚，对我们的眼睛也不好，如果处在交通繁忙的街道，还可能会威胁到我们的安全，如何在信息时代终端设备获取和存储的信息越来越丰富的情况下，让我们从设备获取信息的方式越来越简单并且没有其他隐患，成为目前各种终端设备面临的问题。所有这些问题，都需要有一种更为便捷的方式来处理。而语音技术的应用，则给人们带来了福音，它让这些问题都可以迎刃而解。语音技术，包含两个方面：语音合成和语音识别。语音合成即Text

4、to Speech (TTS)，就是将文本状态的信息转换成语音的形式输出。就像给设备安装上了嘴巴，你想让设备说什么，设备就可以说什么，解决了设备上的信息只能看不能听得问题。语音识别即 Au t oma t i c S p e e c h R e c ogni t ion ( AS R ) ，就是使得设备可以听懂用户的话，识别又分为篇章级识别和命令词识别，目前在嵌入式领域发展比较成熟的只有命令词的识别。语音识别就像给设备安装了耳朵，让设备可以听懂我们的命令，并且执行相应的命令，解决了人们在操作各种终端设备时只能使用手动按键方式的问题。根据信息产业部的数据，截止2005年 3 月份，我国

5、移动电话用户总量已经超过4 亿，手机这个产业蕴含着巨大的商机，且仍然在不断发展中，语音技术在手机上的应用有着巨大的潜力，虽然目前语音技术在手机行业的应用还不够成熟，但是随着手机向智能化和娱乐化方向的不断发展，相信语音技术在手机行业的大规模应用指日可待。在车载行业，需要运用到语音技术的设备越来越多，并且随着汽车工业的迅速发展，语音技术在车载环境下应用的需求越来越突出。车载语音导航已经是车载导航产业的必然方向，其他如调度，监控等等都存在着对语音技术的需求，随着汽车电子的发展，相信可以播报各种警示信息、故障信息及各种数据的各种仪表会出现在将来某一天。另外，在税控机，排队机，电子词典等等行

6、业，也已经表现出越来越多的需求。语音技术作为各种设备智能化发展的重要方面，已经在向人们生活的方方面面渗透，可能还有很多对语音技术存在巨大需求的行业没有被我们发现。据预测，随着语音技术这个产业的发展和成熟，以及在各个方面的应用，将会有千亿多的巨大市场空间等待我们去开发。一、什么是语音识别？语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，也就是让机器听懂人类的语音。也就是说，如果电脑配置有“语音辨识”的程序组那么当你的声音通过一个转换装置输入电脑内部、并以数位方式储存后，语音辨识程序便开始以你输入的声音样本与事先储存好的声音样本进行对比工作。声音对比工

7、作完成之后，电脑就会输入一个它认为最“象”的声音样本序号，就可以知道你刚才念的声音是什么意义进而执行此命令。说起来简单，但要真正建立辨识率高的语音辨识程序组，却是非常困难而专业的，世界各地的学者们也还在努力研究最好的方式。专家学者们研究出许多破解这个问题的方法，如傅立叶转换、倒频谱参数等，使目前的语音辨识系统已达到一个可接受的程度并且辨识度愈来愈高。也号赴理技*前端M A攬型特&E训练解码靖廿建構弗法IS字谣音佶呻塑熬）白适应计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：（1）语音

8、特征提取：目的是从语音波形中提取随时间变化的语音特征序列。（2）声学模型与模式匹配（识别算法）：声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型（模式）进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大影响。（3）语义理解：计算机对识别结果进行语法、语义分析。明白语言的意义以便做出相应的反应。通常是通过语

9、言模型来实现。所谓“语音识别”,就是利用电子计算机等机械装置来识别人讲话的意义和内容。20世纪 50 代 , 就有人提出“口授打印机”的设恕。可以说, 这是有关语音识别技术最早构想。语音识别技术经历了语音识别、语音合成以及自然语音合成3 个阶段。从原理上讲,似乎让计算机识别人的语言并不难,其实困难还是不少的。例如,不同的人读同一个词所发出的音在声学特征上却不完全相同;即便是同一个人,右不同情况下对同一个字的发音也不相同。加上人们讲话时常有不合语法规律的情况,有时还夹杂些俗语,或省略一些词语,而且语速变化不定。所有这些,在我们听别人讲话时似乎都不成为问题,但让机器理解则很是困难。近年

10、来,由于计算机功能的日益强大,存储技术、语音算法技术和信号处理技术的长足进步,以及软件编程水平的提高,语音识别技术已经取得突破性的进展,使它的广泛应用成为可能。语音识别技术的应用主要有以下两个方面。一是用于人机交流。目前这方面应用的呼声很高,因为使用键盘、鼠标与电子计算机进行交流的这种方式,使许多非专业人员,特别是不懂英语或不熟悉汉语拼音的人被拒之于门外,影响到电子计算机的进一步普及。语音识别技术的采用,改变了人与计算机的互动模式,人们只需动动口,就能打开或关闭程序,改变工作界面。这种使电脑人性化的结果是使人的双手得到解放,使每个人都能操作和应用计算机。电话仍是目前使用最为普遍的通

11、信工具,通过电话与语音识别系统的协同工作,可以实现语音拨号、电话购物以及通过电话办理银行业务、炒股、上网检索信息或处理电子件等。不久, 能按主人口令接通电话、打开收音机,以及通过声纹识别来者身份的安全系统也将获得应用。语音识别技术的另一方面应用便是语音输入和合成语音输出。现在,已经出现能将口述的文稿输入计算机并按指定格式编排的语音软件，它比通过键盘输入在速度上要提高24倍。装有语音软件的电脑还能通过语音合成把计算机里的文件用各种语言“读”出来,这将大大推进远程通信和网络电话的发展。在现阶段,语音技术主要用于电子商务、客户服务和教育培训等领域,它对于节省人力、时间,提高工作效率将起到明显的

12、作用。能实现自动翻译的语音识别系统目前也正在研究、完善之中。首先介绍一下语音识别系统的分类方式及依据。根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图1所示。图1语音识别的实现图1语音识别的实现语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外, 还涉及到语音识别单元的

13、选取。（1）语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。单词（白）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节, 并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音

14、识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28 个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响, 音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。（2）特征参数提取技术语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽一可能多的反映语义信息，尽量减少说话人

15、的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲, 这是信息压缩的过程。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提咼。也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。（3）模式匹配及模型训练技术模型训练是指按照

16、一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的Markor链，另一个是与 Markor链的每一状态相关联的观察矢量的随机过程（可观测的）。隐蔽Ma

展开阅读全文

语音识别概述

最新文档