《语音识别基础》PPT课件

上传人:壹****1 文档编号:568740591 上传时间:2024-07-26 格式:PPT 页数:34 大小:372.97KB
返回 下载 相关 举报
《语音识别基础》PPT课件_第1页
第1页 / 共34页
《语音识别基础》PPT课件_第2页
第2页 / 共34页
《语音识别基础》PPT课件_第3页
第3页 / 共34页
《语音识别基础》PPT课件_第4页
第4页 / 共34页
《语音识别基础》PPT课件_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《《语音识别基础》PPT课件》由会员分享,可在线阅读,更多相关《《语音识别基础》PPT课件(34页珍藏版)》请在金锄头文库上搜索。

1、语音识别基础上海交通大学计算机系上海交通大学计算机系吴亚栋吴亚栋E-mail:E-mail:Tel: 62932057Tel: 62932057第一章 绪论第一章 绪论1.1 1.1 语音识别的重要性语音识别的重要性1.2 1.2 语音识别的定义、原理和分类语音识别的定义、原理和分类1.3 1.3 本课程的内容与要求本课程的内容与要求1.4 1.4 语音识别的历史回顾语音识别的历史回顾1.1 语音识别的重要性1.1.1 1.1.1 语音信息处理与语音识别语音信息处理与语音识别1.1.2 1.1.2 语音识别的重要性语音识别的重要性 人类利用语言相互交流信息,包括语音和文字两种人类利用语言相互交

2、流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。量的信息交换。( (图图1.1)1.1) 计算机语音识别是智能计算机系统的重要特征。这计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响对计算

3、机的发展以及推广应用产生深远的影响* *。1.2 语音识别的定义、原理及分类1.2.1 1.2.1 语音识别的定义语音识别的定义1.2.2 1.2.2 语音识别的基本原理语音识别的基本原理1.2.3 1.2.3 语音识别的分类语音识别的分类1.3 本课程的内容与要求l本课程的本课程的内容内容l本课程的本课程的要求要求l参考参考书籍书籍1.4 语音识别的回顾1.4.1 1.4.1 国外语音识别研究的历史国外语音识别研究的历史1.4.2 1.4.2 我国语音识别研究的历史我国语音识别研究的历史第一章 回家作业l调查报告:调查报告: 国内外语音识别技术研究开发最新动态国内外语音识别技术研究开发最新动

4、态 l提交时间:提交时间:图图1.1 1.1 人与人之间、人与机器之间的语音信息处理过程人与人之间、人与机器之间的语音信息处理过程人与人之间的语音通信人与人之间的语音通信( (人人) )行行动动意意图图说话方说话方收听方收听方语言形成发音收听认识理解传输系统(编码、解码)空间传播文本解析语音合成语音识别文文章章输输入入( (机器机器) )语音理解计计算算机机处处理理应答文生成应答文生成:第一类人机 语音通信问题:第二类人机 语音通信问题计算机模拟人类交流信息的过程计算机模拟人类交流信息的过程: :(1) (1) 将大脑产生的思想转换成语言将大脑产生的思想转换成语言(2) (2) 将语言转换成相

5、应的语音将语言转换成相应的语音(3) (3) 识别表达语言的语音内容识别表达语言的语音内容(4) (4) 理解语音所表达的语言意义理解语音所表达的语言意义自然语言生成自然语言理解语 音 合 成语 音 识 别*语音识别是一项具有巨大应用推广前景的工程语音识别是一项具有巨大应用推广前景的工程l基基于于电电话话的的语语音音识识别别技技术术,使使计计算算机机直直接接为为客客户户提提供供 金金融融证证券券和和旅旅游游等等方方面面的的信信息息查查询询及及服服务务成成为为可可能能,进进而而成成为为电电子子上上午午进进展展中中的的重重要要一一环环(Voice-(Voice-Commerce)Commerce)

6、。l语语音音识识别别技技术术作作为为声声控控产产业业,必必将将对对编编辑辑排排版版、办办公公自自动动化化、工工业业过过程程和和机机器器操操作作的的声声控控技技术术起起到到重重大大的的推推进进作作用用。因因此此可可以以预预言言,语语音音技技术术必必将将对对工工业业、金金融融、商商业业、文文化化、教教育育等等诸诸方方面面事事业业产产生生革命性的影响。革命性的影响。*主要先进国家都将此工程列为国家级研究项目主要先进国家都将此工程列为国家级研究项目l面面对对如如此此广广阔阔的的应应用用领领域域,目目前前国国内内外外众众多多公公司司正积极推动语音识别技术的应用。正积极推动语音识别技术的应用。 l微软微软

7、:让计算机能说会听:让计算机能说会听 lIBMIBM:ViaVoiceViaVoice仍居主流仍居主流 lIntelIntel:做语音技术倡导者:做语音技术倡导者 微软微软:让计算机能说会听:让计算机能说会听lBill Bill Gates Gates 在在9797年年世世界界计计算算机机博博览览会会(COMDEX)(COMDEX)主主题题演讲会上描绘演讲会上描绘ITIT事业的发展宏图时,率先指出:事业的发展宏图时,率先指出: 下下一一代代操操作作系系统统和和应应用用程程序序的的用用户户界界面面将将是是语语音音识识别别。工工业业界界应应对对语语音音识识别别领领域域的的重重大大突突破破做做好好充

8、充分分准备,因为那将是一场席卷全球的另一次热潮。准备,因为那将是一场席卷全球的另一次热潮。l19981998年年1111月月5 5日日,微微软软中中国国研研究究院院在在北北京京成成立立。该该中中心的任务是重点研究计算机在中文环境下的易用性。心的任务是重点研究计算机在中文环境下的易用性。 IBMIBM:ViaVoiceViaVoice仍居主流仍居主流lIBMIBM公公司司潜潜心心研研究究语语音音识识别别技技术术迄迄今今已已达达3030年年之之久久,投资超过投资超过2 2亿美元。亿美元。lIBMIBM公公司司于于19951995年年在在北北京京成成立立了了中中国国研研究究中中心心,中中文文语语音音

9、信信息息处处理理成成了了该该中中心心三三大大研研究究领领域域之之一一,并并于于19971997年年9 9月月4 4日日,在在北北京京推推出出了了中中文文连连续续语语音音识识别别产品产品ViaVoiceViaVoice。 IntelIntel:做语音技术倡导者:做语音技术倡导者l19981998年年,英英特特尔尔公公司司也也宣宣布布致致力力于于推推广广语语音音识识别别技技术术,除除了了在在北北京京举举办办首首届届语语音音技技术术国国际际论论坛坛之之外外,还还在在北北京京、上上海海、成成都都、广广州州等等地地展展开开了了“基基于于英英特尔框架的语音识别技术特尔框架的语音识别技术”的宣传活动。的宣传

10、活动。l联联合合了了七七家家世世界界著著名名学学术术机机构构(中中科科院院自自动动化化所所、清清华华大大学学、香香港港科科技技大大学学、香香港港中中文文大大学学、麻麻省省理理工工学学院院、俄俄勒勒岗岗研研究究院院、WATERLLOOWATERLLOO大大学学)成成立立了了“国国际际语语音音技技术术研研究究组组织织”,致致力力于于计计算算机机语语音音技技术术的基础研究,以加速中文语音识别技术的发展。的基础研究,以加速中文语音识别技术的发展。 1.2.1 语音识别的定义l语语音音识识别别是是研研究究如如何何采采用用数数字字信信号号处处理理技技术术自自动动提提取取以以及及决决定定语语音音信信号号中中

11、最最基基本本、 最最有有意意义义的的信信息息的的一一门门新新兴兴的的边边缘缘学学科科。它它是是语语音音信信号号处处理理学学科科的的一一个分支。个分支。l语语音音识识别别所所涉涉及及的的学学科科领领域域:信信号号处处理理、物物理理学学(声声学学)、模模式式匹匹配配、通通信信及及信信息息理理论论、语语言言语语音音学学、生生理理学学、计计算算机机科科学学(研研究究软软硬硬件件算算法法以以便便更更有有效效地地实实现现用用于于识识别别系系统统中中的的各各种种方方法法)、心心理理学学等。等。*音韵信息与音律信息音韵信息与音律信息l有有意意义义、有有内内容容的的信信息息是是构构成成语语音音音音韵韵特特性性、

12、即即语语音的共性特征之基础,这类特征信息称为音韵信息。音的共性特征之基础,这类特征信息称为音韵信息。 l语语音音信信号号中中有有关关个个人人特特征征的的信信息息、即即语语音音的的个个性性特特征征,如如:音音强强、节节奏奏、音音高高等等,这这类类特特征征信信息息称称为为音音律信息律信息。l从从广广义义上上讲讲,语语音音识识别别也也包包括括了了对对说说话话人人的的识识别别,其其主主要要内内容容是是提提取取语语音音信信号号中中有有关关个个人人特特征征的的信信息息、即即语语音音的的个个性性特特征征(如如:音音律律特特性性等等),在在这这里里专专指指有意义、有内容的识别。有意义、有内容的识别。1.2.2

13、 语音识别的基本原理l训训练练(Training)(Training):预预先先分分析析出出语语音音特特征征参参数数,制制作作语语音音模板模板(Template)(Template)并存放在语音参数库中。并存放在语音参数库中。l识识别别(Recognition)(Recognition):待待识识语语音音经经过过与与训训练练时时相相同同的的分分析析,得得到到语语音音参参数数,将将它它与与库库中中的的参参考考模模板板一一一一比比较较,并并采采用用判决的方法找出最接近语音特征的模板,得出识别结果。判决的方法找出最接近语音特征的模板,得出识别结果。l失失真真测测度度(Distortion (Dist

14、ortion Measures)Measures):在在进进行行比比较较时时要要有有个个标准,这就是计量语音特征参数矢量之间的标准,这就是计量语音特征参数矢量之间的“失真测度失真测度”。l主主要要识识别别框框架架:基基于于模模式式匹匹配配的的动动态态时时间间规规整整法法(DTW:Dynamic (DTW:Dynamic Time Time Warping)Warping)和和基基于于统统计计模模型型的的隐隐马马尔尔柯柯夫模型法夫模型法(HMM:Hidden Markov Model)(HMM:Hidden Markov Model)。( (图图1.2)1.2)图图1.2 1.2 语音识别原理框

15、图语音识别原理框图构词规则同音字判决语法语义背景知识预处理声学参数分析测度估计失真测度语音库判决专家知识库训练识别结果反混叠失真滤波器预加重器端点检测噪声滤波器欧氏距离似然比测度语音信号 输入1.2.3 语音识别的分类l按识别器的类型按识别器的类型:l按识别器对使用者的适应情况按识别器对使用者的适应情况:l按语音词汇表的大小按语音词汇表的大小:按识别器的类型按识别器的类型:l孤立单词识别孤立单词识别(Isolated Word Recognition)(Isolated Word Recognition) 识别的单元为字、词或短语,它们组成识别的词汇表识别的单元为字、词或短语,它们组成识别的词

16、汇表(Vocabulary)(Vocabulary), 对它们中的每一个通过训练建立标准模板或模型。对它们中的每一个通过训练建立标准模板或模型。l连续语音识别连续语音识别(Continuous Speech Recognition)(Continuous Speech Recognition) 连续单词识别连续单词识别(Connected Word Recognition) (Connected Word Recognition) : 以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准 样板或模型也是字、词或短语,但识别时可

17、以是它们中间几个的连续。样板或模型也是字、词或短语,但识别时可以是它们中间几个的连续。 连续言语识别与理解连续言语识别与理解(Conversational Speech Recognition):(Conversational Speech Recognition): 以多数词汇为对象,待识语音是一些完整的句子。虽不能完全准确以多数词汇为对象,待识语音是一些完整的句子。虽不能完全准确 识别每个单词,但能够理解其意义,连续言语识别也称会话语音识别。识别每个单词,但能够理解其意义,连续言语识别也称会话语音识别。 理解是在语音识别理解是在语音识别之后,根据语言学知识来推断语音的含义内容的。之后,根据

18、语言学知识来推断语音的含义内容的。 按识别器对使用者的适应情况按识别器对使用者的适应情况:l特定人语音识别特定人语音识别(Speaker-Dependent)(Speaker-Dependent) 语音识别的标准模板或模型只适应于某个人,实际上,该模板或模语音识别的标准模板或模型只适应于某个人,实际上,该模板或模 型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。 其他人使用时,需同样建立自己的标准模板或模型。其他人使用时,需同样建立自己的标准模板或模型。l非特定人语音识别非特定人语音识别(Speaker-Indepen

19、dent)(Speaker-Independent) 语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说 标准普通话),标准模板或模型由该范畴的多个人通过训练而产生。标准普通话),标准模板或模型由该范畴的多个人通过训练而产生。 识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的 同一范畴的发音人(圈外人)使用。同一范畴的发音人(圈外人)使用。 按语音词汇表的大小按语音词汇表的大小:l有限词汇识别有限词汇识别 按词汇表中字、词或短句个数的多少,大致分为:按词汇表

20、中字、词或短句个数的多少,大致分为: 100100以下为小词汇;以下为小词汇;100-1000100-1000为中词汇;为中词汇;10001000以上为大词汇。以上为大词汇。l无限词汇识别(全音节识别)无限词汇识别(全音节识别) 当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全 音节语音识音节语音识 别(音节字表:别(音节字表:LexiconLexicon)。全音节语音识别是实现无限)。全音节语音识别是实现无限 词汇或中文文本输入的基础。词汇或中文文本输入的基础。 本课程的内容:l第一章第一章 绪论绪论l第二章第二章 语音

21、的特征语音的特征l第三章第三章 用于语音识别的信号处理及分析方法用于语音识别的信号处理及分析方法l第四章第四章 基于模式匹配方式的语音识别技术基于模式匹配方式的语音识别技术l第五章第五章 基于统计模型基于统计模型(HMM)(HMM)方式的语音识别技术方式的语音识别技术l第六章第六章 孤立字(词)语音识别系统孤立字(词)语音识别系统l第七章第七章 连续语音识别系统连续语音识别系统l第八章第八章 语音识别的应用及展望语音识别的应用及展望 本课程的要求:l本本课课程程的的设设置置目目的的是是试试图图通通过过对对最最有有望望的的语语音音识识别别系系统统的的基基本本原原理理的的介介绍绍,然然后后为为大大

22、家家提提供供一一种种能能促促使使语音研究向前发展的框架。语音研究向前发展的框架。l通通过过本本课课程程的的学学习习,要要求求大大家家掌掌握握语语音音识识别别的的基基本本概念及原理,了解语音识别的基本技术和相关课题。概念及原理,了解语音识别的基本技术和相关课题。l考核方法:笔试考核方法:笔试+ +实验报告实验报告 参考书籍:l(1 1)胡光锐:)胡光锐:“语音处理与识别语音处理与识别”,上海科学技术出版社,上海科学技术出版社,19941994。l(2 2)陈永彬:)陈永彬:“语音信号处理语音信号处理”,上海交通大学出版社,上海交通大学出版社,19901990。l(3 3)姚天任:)姚天任:“数字

23、语音处理数字语音处理”, 华中理工大学出版社,华中理工大学出版社,19921992。l(4 4)古古井井贞贞熙熙(朱朱家家新新,张张国国海海,易易武武秀秀 译译):“数数字字声声音音处处理理”, 人民邮电出版社,人民邮电出版社,19931993。l(5)Lawrence Rabiner, Biing-Hwang Juang5)Lawrence Rabiner, Biing-Hwang Juang:“FUNDAMENTALS “FUNDAMENTALS OF SPEECH RECOGNITION” OF SPEECH RECOGNITION”,PTR Prentice-HallPTR Prent

24、ice-Hall,IncInc,19931993。 1.4.1 国外语音识别研究的历史(1)l19521952年年贝贝尔尔研研究究所所DavisDavis等等人人研研究究成成功功了了世世界界上上第第一一个个能能识识别别1010个个英英文文数数字字发发音音的的实实验验系系统统。19601960年年英英国国的的DenesDenes等等人人研研究究成成功功了了第第一一个个计计算算机机语音识别系统。语音识别系统。l大大规规模模的的语语音音识识别别研研究究是是在在进进入入了了7070年年代代以以后后,在在小小词词汇汇量量、孤孤立立词词的识别方面取得了实质性的进展的识别方面取得了实质性的进展* *。l进进

25、入入8080年年代代以以后后,研研究究的的重重点点逐逐渐渐转转向向大大词词汇汇量量、非非特特定定人人连连续续语语音音识识别别。在在研研究究思思路路上上也也发发生生了了重重大大变变化化,即即由由传传统统的的基基于于标标准准模模板板匹匹配配的的技技术术思思路路开开始始转转向向基基于于统统计计模模型型 (HMM)(HMM)的的技技术术思思路路。此此外外,再再次次提提出出了将神经网络技术引入语音识别问题的技术思路了将神经网络技术引入语音识别问题的技术思路* *。l进进入入9090年年代代以以后后,在在语语音音识识别别的的系系统统框框架架方方面面并并没没有有什什么么重重大大突突破破。但是,在语音识别技术

26、的应用及产品化方面出现了很大的进展但是,在语音识别技术的应用及产品化方面出现了很大的进展* *。 1.4.1 国外语音识别研究的历史(2)lDARPA(Defense DARPA(Defense Advanced Advanced Research Research Projects Projects Agency)Agency)是是在在7070年年代代由由美美国国国国防防部部远远景景研研究究计计划划局局资资助助的的一一项项1010年年计计划划,其其旨旨在在支支持持语语言理解系统的研究开发工作言理解系统的研究开发工作* *。l到到了了8080年年代代,美美国国国国防防部部远远景景研研究究计计划

27、划局局又又资资助助了了一一项项为为期期1010年年的的DARPADARPA战战略略计计划划,其其中中包包括括噪噪声声下下的的语语音音识识别别和和会会话话(口口语语)识识别别系系统统,识识别别任任务务设设定定为为“(10001000单单词词)连连续续语语音音数数据据库库管管理理”。到到了了9090年年代代,这这一一DARPADARPA计计划划仍仍在在持持续续进进行行中中。其其研研究究重重点点已已转转向向识识别别装装置中的自然语言处理部分,识别任务设定为置中的自然语言处理部分,识别任务设定为“航空旅行信息检索航空旅行信息检索”。 l日日本本也也在在19811981年年的的第第五五代代计计算算机机计

28、计划划中中提提出出了了有有关关语语音音识识别别输输入入- -输输出出自自然然语语言言的的宏宏伟伟目目标标,虽虽然然没没能能实实现现预预期期目目标标,但但是是有有关关语语音音识识别别技技术术的的研研究究有有了了大大幅幅度度的的加加强强和和进进展展。19871987年年起起,日日本本又又拟拟出出新的国家项目新的国家项目-高级人机口语接口和自动电话翻译系统。高级人机口语接口和自动电话翻译系统。1.4.2 我国语音识别研究的历史l我我国国的的语语音音识识别别研研究究起起始始于于19581958年年,由由中中国国科科学学院院声声学学所所利利用用电电子子管管电电路路识识别别1010个个元元音音。直直至至1

29、9731973年年才才由由中中国国科科学学院院声声学学所所开开始始计计算算机机语语音音识识别别。由由于于当当时时条条件件的的限限制制,我我国国的的语语音音识识别别研研究究工工作作一一直直处处于于缓缓慢发展的阶段。慢发展的阶段。l进进入入8080年年代代以以后后,随随着着计计算算机机应应用用技技术术在在我我国国逐逐渐渐普普及及和和应应用用以以及及数数字字信信号号技技术术的的进进一一步步发发展展,国国内内许许多多单单位位具具备备了了研研究究语语音音技技术术的的基基本本条条件件。与与此此同同时时,国国际际上上语语音音识识别别技技术术在在经经过过了了多多年年的的沉沉寂寂之之后后重重又又成成为为研研究究

30、的的热热点点,发发展展迅迅速速。就就在在这这种种形形式式下下,国国内内许许多多单单位位纷纷纷纷投投入到这项研究工作中去入到这项研究工作中去* *。 l19861986年年3 3月月我我国国高高科科技技发发展展计计划划(863(863计计划划) )启启动动,语语音音识识别别作作为为智智能能计计算算机机系系统统研研究究的的一一个个重重要要组组成成部部分分而而被被专专门门列列为为研研究究课课题题。在在863863计计划划的的支支持持下下,我我国国开开始始了了有有组组织织的的语语音音识识别别技技术术的的研研究究,并并决决定定了了每每隔隔两两年年召召开开一一次次语语音音识识别别的的专专题题会会议议。从从

31、此此我我国国的的语语音音识识别别技技术术进进入入了了一个前所未有的发展阶段。一个前所未有的发展阶段。 * *国外国外7070年代所取得的实质性的进展年代所取得的实质性的进展l这这一一时时期期的的语语音音识识别别方方法法基基本本上上是是采采用用传传统统的的模模式式识识别别策策略略。其其中中以以苏苏联联的的VelichkoVelichko和和ZagoruykoZagoruyko、日日本本的的迫迫江江和和千千叶叶,以以及及当当时时在在美美国的板仓等人的研究工作最具有代表性。国的板仓等人的研究工作最具有代表性。- - 苏联的研究为模式识别应用于语音识别这一领域奠定了基础;苏联的研究为模式识别应用于语音

32、识别这一领域奠定了基础;- - 日本的研究则展示了如何利用动态规划技术在待识语音模式与标日本的研究则展示了如何利用动态规划技术在待识语音模式与标 准语音模式之间进行非线性时间匹配的方法;准语音模式之间进行非线性时间匹配的方法;- - 板仓的研究提出了如何将线性预测分析技术板仓的研究提出了如何将线性预测分析技术(LPC)(LPC)加以扩展,使之加以扩展,使之 用于语音信号的特征抽取的方法。用于语音信号的特征抽取的方法。l目目前前在在大大词词汇汇语语音音识识别别方方面面处处于于领领先先地地位位的的IBMIBM语语音音研研究究小小组组,就就是是在在7070年年代代开开始始了了它它的的大大词词汇汇语语

33、音音识识别别研研究究工工作作的的。AT&AAT&A的的贝贝尔尔研研究究所所也也开开始始了了一一系系列列有有关关非非特特定定人人语语音音识识别别的的实实验验。这这一一研研究究历历经经1010年年,其其成成果果是是确确立立了了如如何何制制作作用用于于非非特特定定人人语语音音识识别别的的标标准准模模板板的方法。的方法。* *国外国外8080年代所取得的重大进展年代所取得的重大进展l这一时期所取得的重大进展有:这一时期所取得的重大进展有:(1 1)隐码尔柯夫模型)隐码尔柯夫模型(HMM)(HMM)技术的成熟和不断完善成为语音识别的技术的成熟和不断完善成为语音识别的 主流方法。主流方法。(2 2)以知识

34、为基础的语音识别的研究日益受到重视。在进行连续语)以知识为基础的语音识别的研究日益受到重视。在进行连续语 音识别的时候,除了识别声学信息外,更多地利用各种语言知音识别的时候,除了识别声学信息外,更多地利用各种语言知 识,诸如构词、句法、语义、对话背景方面等的知识来帮助进识,诸如构词、句法、语义、对话背景方面等的知识来帮助进 一步对语音作出识别和理解。同时在语音识别研究领域,还产一步对语音作出识别和理解。同时在语音识别研究领域,还产 生了基生了基 于统计概率的语言模型。于统计概率的语言模型。(3 3)人工神经网络在语音识别中的应用研究的兴起。在这些研究中,)人工神经网络在语音识别中的应用研究的兴

35、起。在这些研究中, 大部分采用基于反向传播法(大部分采用基于反向传播法(BPBP算法)的多层感知网络。人工算法)的多层感知网络。人工 神经网络具有区分复杂的分类边界的能力,显然它十分有助于神经网络具有区分复杂的分类边界的能力,显然它十分有助于 模式划分。模式划分。 * *国外国外9090年代所取得的实质性的进展年代所取得的实质性的进展l特特别别是是在在电电话话语语音音识识别别方方面面,由由于于其其有有着着广广泛泛的的应应用用前前景景,成成了了当前语音识别应用的一个热点。当前语音识别应用的一个热点。l另另外外,面面向向个个人人用用途途的的连连续续语语音音听听写写机机技技术术也也日日趋趋完完善善。

36、这这方方面面, 最最具具代代表表性性的的是是IBMIBM的的ViaVoiceViaVoice和和DragonDragon公公司司的的Dragon Dragon DictateDictate系系统统。这这些些系系统统具具有有说说话话人人自自适适应应能能力力,新新用用户户不不需需要要对对全全部部词词汇汇进进行训练,便可在使用中不断提高识别率。行训练,便可在使用中不断提高识别率。 * *7070年代美国年代美国DARPADARPA计划计划lCMUCMU(卡内基梅龙大学)、(卡内基梅龙大学)、MITMIT(麻省理工学院)、(麻省理工学院)、IBMIBM、AT&TAT&T等都参等都参 与了这一计划的开发

37、工作。与了这一计划的开发工作。l该计划执行的结果是该计划执行的结果是19761976年推出了年推出了HARPY(CMU)HARPY(CMU)系统。虽然,这是有系统。虽然,这是有 限词汇和限定领域的识别系统,但改变了原来只利用声学信息的状况,限词汇和限定领域的识别系统,但改变了原来只利用声学信息的状况, 开始应用高层次语言学知识(如构词、句法、语义、对话背景等)。开始应用高层次语言学知识(如构词、句法、语义、对话背景等)。l在这为期在这为期1010年的阶段中尽管所有的研究计划均未能达到预期目标,年的阶段中尽管所有的研究计划均未能达到预期目标, 但它对语音识别和理解研究的发展起了重要的推动作用。通

38、过这一阶但它对语音识别和理解研究的发展起了重要的推动作用。通过这一阶 段的研究使人们认识到语音识别任务的艰巨性,总结出许多有意义的段的研究使人们认识到语音识别任务的艰巨性,总结出许多有意义的 经验教训,并且从此对语音识别提出了许多基础性的研究课题。这些经验教训,并且从此对语音识别提出了许多基础性的研究课题。这些 课题主要涉及到语音信号和自然语言的多变性和复杂性课题主要涉及到语音信号和自然语言的多变性和复杂性* *。 * *语音信号和自然语言的多变性和复杂性语音信号和自然语言的多变性和复杂性(1) (1) 连续语音词与词之间没有明显的停顿,词与词之间的连续语音词与词之间没有明显的停顿,词与词之间

39、的 分割比较困难;分割比较困难; (2) (2) 每一个基本的声学识别基元(如音素)受前后音素发每一个基本的声学识别基元(如音素)受前后音素发 音方式的影响(协同发音)使特征变得不稳定音方式的影响(协同发音)使特征变得不稳定 (3) (3) 不同人、不同心理和生理以及在不同的说话环境下说不同人、不同心理和生理以及在不同的说话环境下说 同一词时,声学信号特征会发生变化;同一词时,声学信号特征会发生变化; (4) (4) 一个词的读音不仅包含了词义特征,而且还包含了说一个词的读音不仅包含了词义特征,而且还包含了说 话人性别、年龄、情绪等大量与词义无关的信息,而话人性别、年龄、情绪等大量与词义无关的

40、信息,而 这些信息的分离是不容易的。这些信息的分离是不容易的。 (5) (5) 自然语言的多变性难以借助于一些基本语法规则进行自然语言的多变性难以借助于一些基本语法规则进行 描述,因而使计算机编程变得困难。描述,因而使计算机编程变得困难。 * *我国的语音识别技术的发展我国的语音识别技术的发展(1)(1)在北京有中科院声学所、自动化所、清华大学、北方交通在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。国科技大学、四川大学等也纷纷行动起来。(2)(2

41、)现在,国内有不少语音识别系统已研制成功。这些系统的现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。性能各具特色。- - 在孤立字大词汇量语音识别方面,最具代表性的要数在孤立字大词汇量语音识别方面,最具代表性的要数9292年清年清华大学电子工程系与中国电子器件公司合作研制成功的华大学电子工程系与中国电子器件公司合作研制成功的THED-THED-919919特定人语音识别与理解实时系统。特定人语音识别与理解实时系统。- - 在连续语音识别方面,在连续语音识别方面,9191年年1212月四川大学计算机中心在微机月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语上实现了一个主题受限的特定人连续英语-汉语语音翻译演汉语语音翻译演示系统。示系统。- - 在非特定人语音识别方面,有清华大学计算机科学与技术系在非特定人语音识别方面,有清华大学计算机科学与技术系在在8787年研制的声控电话查号系统并投入实际使用。年研制的声控电话查号系统并投入实际使用。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号