人工智能2.－金锄头文库

资源描述

《人工智能2.》由会员分享，可在线阅读，更多相关《人工智能2.（19页珍藏版）》请在金锄头文库上搜索。

1、目录摘要(1)1绪论(1)1.1本课题研究的背景与意义(1)1.2国内外研究概况(3)1.3目前仍存在的问题(5) 1.3.1语音识别的方言和口音问题(5) 1.3.2信道问题(5) 1.3.3背景噪音问题(5) 1.3.4自然语音理解领域(5) 1.3.5语音合成(5)2语音识别技术概述(6)2.1语音识别的类型(6)2.1.1以所要识别的单位来分(6)2.1.2以说话人来分(6)2.1.3以识别方法来分(6)2.2语音识别的原理(7)2.3语音识别的基本过程(7)3语音识别的基本方法(8)3.1基于语音学和声学的方法(9)3.2模版匹配的方法(9)3.2.1动态时间规整（DTW）(9)3

2、.2.2隐马尔可夫法（HMM）(9)3.2.3矢量量化(VQ)(9)3.3神经网络的方法(10)4语音识别系统的结构和所面临的问题(10)4.1语音识别系统的结构(10)4.1.1语音信号预处理与特征提取(10)4.1.2声学模型与模式匹配(11)4.1.3语音模型与语音处理(12)4.2语音识别所面临的问题(12)4.2.1算法模型方面(12)4.2.2自适应方面(12)4.2.3强健性方面(13)4.2.4多语言混合识别已经无限词汇识别方面(13)4.2.5多语种交流系统的应用(13)5语音识别的应用(14)5.1语音识别的应用简介(14)5.2语音识别在公安工作中的应用(15)5.2.1

3、历史背景和现状(15)5.2.2在侦查工作中的应用(15)5.2.3在抓捕中的应用(16)5.2.4在取证中的应用(16)5.2.5在执行取保候审、监视居住等强制措施中的应用(17)6总结(17)参考文献(18)Abstract(18) 语音识别技术及发展作者：陈哲指导教师：赵艳丽摘要：语音是人们相互之间交流最直接最有效的方式，作为一种人机界面，语音与键盘、鼠标输入相比是最自然的输入方式。语音识别技术从上世纪50年代开始到现在已经有了巨大进展，促使人们迫切把它推向实用领域，而不满足于只是理论研究。人们期望通过在移动通讯设备中引入语音识别系统使得语音识别技术真正从实验室走向日常生活。关键词

4、：语音识别；低代价；实时；端点检测；说话人自适应 1绪论1.1本课题研究的背景与意义随着现代科学的发展，人们在与机器的信息交流中，需要一种更加方便、自然的方式，而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉，能“听懂”人类的口头语言，这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一，它是一门涉及面很广的交叉学科，与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切

5、的联系。它还涉及到生理学、心理学以及人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) 1。语音识别技术以语言为研究对象，涉及生理学、语言学、计算机及信号处理等多个领域，是语言信号处理的一个重要研究方向，在智能控制、多媒体、人机对话等方面有着极其广泛的应用前景。特别是在各种智能机器人领域，基于语音识别技术的导航控制为人机交流、合作提供了有效的途径，成为当前智能机器人的热点之一。语音是语言信息的载体，语音识别的基本任务是将输入的语音转化为相应的语言代码。这样，不仅使存储或传输这样的语言代码时的数码率比起存储或传输原来有语音信号来大幅度降低，而且还在于它把一种连续的语音信号变成了

6、一种有限符号，这样的符号容易被计算机(或专用信息处理单元)理解其含义，并且便于与人进行交流，因而语音识别得到十分广泛的应用2。随着计算机技术、模式识别和信号处理技术及声学技术等的发展，使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来，语音识别在工业、军事、交通、医学、民用诸方面，特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今，语音识别产品在人机交互应用中已经占到越来越大的比例3。语音识别技术发展到今天，除了PC机的语音识别系统正趋于成熟外，随着语音算法的深入研究和集成电路技术的发展，出现了一些具有实用价值和市场前景的语音识别芯片。近年来，随着消费

7、类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加，使得语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。通过研究者的不断努力，现在嵌入式非特定人语音识别系统识别精度已经达到98%以上，而对特定人语音识别系统的识别精度就更高了4。嵌入式语音识别系统与PC机的语音识别系统相比，虽然其运算速度和存储容量有限，但它具有自己的一些特点。首先，它是一个完整的语音识别系统。除语音识别功能外，为了有一个友好的人机界面和对识别正确与否的验证，该系统还具备语音提示(语音合成)及语音回放(语音编码记录)功能。其次，嵌入式语音识别系统多为实时系统。即当用户说完待识别的词条后，系统立即完成识别功能并有所

8、回应。第三，嵌入式语音识别系统具有体积小、可靠性高、耗电省、投入少、价格低便携性好、可支持移动作业等优点。这是嵌入式语音识别系统与PC机的语音识别系统相比最大的优势。嵌入式语音识别系统的优点使得其应用的领域十分广泛5。语音识别技术目前在嵌入式系统中的应用主要为语音命令控制，它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式，同时设备的小型化也要求省略键盘以节省体积。这样使用者就真正做到“君子动口不动手”。在西方经济发达国家，大量的嵌入语音识别产品已经进入市场

9、。一些用户电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。可以预测在近五到十年内，嵌入式语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。据美国专家预测到2008年，具有语音识别功能的产品可达50亿美元，同时人们也将调整自己的说话方式以适应各种各样的识别系统。但在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，但我们正一步步朝着改进语音识别系统的方向迈进6。1.2国内外研究概况语音识别技术是语音处理技术的一个分支。语音处理技术发展过程也就是语音识别技术的发展史。由此

10、可以将语音识别分为三个阶段。第一个阶段是萌芽阶段，在这一阶段(20世纪30年代至50年代)，人们对语音处理的研究主要是根据语音学知识，提取若干特征参数，并利用这些参数制作成模拟电路来模仿人的发音过程，实现简单的语音处理功能。语音识别的研究工作始于50年代，它开始的标志是AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。第二个阶段是发展阶段，在这一阶段(20世纪60年代至80年代初)，随着集成电路技术和计算机技术的发展，语音识别的理论和技术亦日趋完善和成熟。60年代，提出了用动态规划(DP)方法来解决语音识别中不等长的问题。70年代，出现了基于线性预测倒谱和动态

11、时间规整技术(DTW)技术的特定人孤立语音识别系统。80年代，最显著的特征是隐马尔可夫(HMM)模型和人工神经元网络(ANN)在语音识别中的成功应用。第三个阶段是实用阶段，在这一阶段(20世纪90年代至今)，随着遵循摩尔定律的超大规模集成电路技术的迅速发展，极大地促进了计算机多媒体技术和人工智能技术的迅猛发展，使人类社会进入到数字信息时代。在此社会背景下，人们对语音识别技术的实际需求愈发迫切，这极大地促进了语音识别技术的不断深入和发展，使语音识别系统从实验室走向实用，从而不断出现利用现语音识别技术的产品7。嵌入式语音是在20世纪六七十年代以来，科研人员一直致力于研究的热门课题。但当时研究出来

12、的嵌入式语音识别专用芯片大多数识别性能差，不能符合实用要求。直到近10年来，随着语音识别算法的深入研究和集成电路技术的发展，才出现了一些具有实用价值和市场潜力巨大的语音识别专用芯片。我国的语音识别系统的研究起步比较晚，但也取得了很好的成绩，研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国PC机语音识别技术的研究水平己经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，但独立开发的专用汉语语音识别芯片还是较少，多数都是与国外研究机构合作开发研制的8。我国所研究的最有代表性的语音识别芯片有

13、清华大学与华录集团合作研究开发的国内第一个具有自主知识产权的语音识别专用芯片。该芯片能够识别2030条特定人语音命令，同时具有语音合成(提示)与语音编码、解码(回放)功能，语音识别率为98%以上，由于优先考虑了语音识别技术在玩具业的应用，与国际上同类芯片相比，其语音识别在基于汉语的SI(不依靠说话者语音)技术的应用方面有明显的优势。同时，它还增加了其他同类芯片没有的自带LCD驱动功能，更吸引人的是比其他的芯片的功耗低12倍5。此外，清华大学还与 Infineon公司合作开发了的语音芯片UniSpeech。 UniSpeech芯片是为语音信号处理开发的专用芯片，采用0.18 um工艺生产。它将

14、双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中，构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11 bit的DAC，采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域，这样精度的ADC/DAC己经可以满足应用。ADC/DAC既可以由MCU核控制，也可以由DSP核控制6。1.3目前仍存在的问题 21世纪作为“语音的世纪”除了蕴含无限的商机以外，也表明了它们存在发展的空间。概括地讲，有这样一些问

15、题急需解决。1.3.1语音识别的方言和口音问题中文有八大方言区，现在很多语音识别系统，对标准普通话的识别性能很好，但是一旦有方言或者口音，性能就会马上下降。解决这个问题有着非常重要的意义，这将极大地拓展该技术的使用空间，因此必须下力气解决好这个问题。1.3.2信道问题我们知道在无线互联应用中，涉及到的信道种类可能会很多，比如固定电话、手机、IP、网络、车载系统等等，各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。1.3.3背景噪音问题语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了，这是由于背景噪音破坏了原始语音的频谱，或者说把原始语音部分或全部掩盖在噪音当中，因而无法准确地分离出来的缘故。解决好背景噪音的问题也是技术上面临的挑战之一。1.3.4自然语音理解领域我们必须有很好的理论和技术去解决口语语言现象，比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。1.3.5语音合成应该说现在的语音合成技术做得很好，能够把给它的文本正确地发出声音来，但是其中存在着一个很大的问题，就是它

展开阅读全文