基于MATLAB的孤立次识别设计

资源描述

《基于MATLAB的孤立次识别设计》由会员分享，可在线阅读，更多相关《基于MATLAB的孤立次识别设计（64页珍藏版）》请在金锄头文库上搜索。

1、摘要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术以语音信号处理为研究对象，涉及语言学、计算机科学、信号处理、生理学、心理学等诸多领域，是模式识别的重要分支。该技术有非常广阔的应用前景。论文主要研究语音识别的基本原理和不同的识别算法，并着重研究基于MATLAB的语音识别算法。在此基础上论文构建了一个基于MATLAB的孤立词语音识别系统。该系统完成了语音识别的主要过程，包含预处理、端点检测、特征参数提取和模式匹配。预处理主要进行了预加重和加窗分帧，端点检测采用了双门限方法，特征参数提取采用的是线性预测分析方法，选

2、取了美尔倒谱系数(MFCC)作为主要的特征参数，利用DTW算法完成了几个孤立词“前进、后退、停”的训练和识别。多人实验的结果表明，该系统的识别率还算可观，对简单孤立词语音识别非常实用，可以满足系统的设计要求。关键词:matlab；语音识别；孤立词AbstractSpeech Recognition (Speech Recognition) is to allow machines to identify and understand the process of the voice signal into the appropriate text or order of the technol

3、ogy. Voice recognition technology to voice signal processing for the study, involving linguistics, computer science, signal processing, physiology, psychology and other fields, is an important branch of pattern recognition. The technology has a very broad prospects. Major research papers speech reco

4、gnition and the basic principles of different algorithms to identify and focus on MATLAB-based speech recognition algorithm. On this basis, build a thesis based on MATLAB isolated word speech recognition system. The system completed the process of the main speech recognition, including pretreatment,

5、 the endpoint detection, feature extraction and pattern matching. Pretreatment a major pre-emphasis and processing window-frames, endpoint detection using a dual-threshold method, feature extraction using a linear prediction analysis, the United States and Seoul has been selected inverted coefficien

6、ts (MFCC) as the main parameters, the use of DTW algorithm completed a few isolated words forward, rewind, stop the training and recognition. More than the results of the experiment shows that the system of recognition rate still considerable, the simple words in isolation speech recognition is usef

7、ul, to meet the design requirements. Key words: matlab; speech recognition; isolated words目录1 绪论11.1 语音识别概述11.1.1语音识别研究的重要意义11.1.2 语音识别的发展现状21.2 语音识别研究的现状及发展趋势31.2.1语音识别研究的现状31.2.2 语音识别研究面临的问题31.2.3 语音识别未来的趋势42 语音识别的基本原理62. 1语音识别的基本原理62.2语音信号的预处理72.2.1预加重72.2.2端点检测92. 3语音信号特征参数提取122. 3. 1线性预测分析的基本

8、原理132.3.2美尔倒谱参数152.3.4美尔倒谱参数的计算162. 4模板匹配技术182. 4. 1动态时间规整(DTW)183 基于MATLAB的语音识别系统203.1语音识别简介203.1.1语音识别系统的分类203.1.2语音识别系统的基本构成213.2语音识别的参数213.2.1线性预测倒谱系数213.2.2 MFCC系数233.3特定人语音识别算法DTW算法243.3.1 DTW算法原理243.3.2DTW的高效算法273.4非特定人语音识别算法HMM283.4.1 HMM的原理284 实验仿真及结果分析304. 1仿真实验原理304.1.1录音的数据格式304.1.2语音采集3

9、14. 2预处理314. 2. 1预加重314. 2. 2端点检测324.3基于MATLAB的个别词汇语音识别系统设计324. 3. 1识别过程及结果32总结35致谢36参考文献37附录A 英文文献40附录B 中文翻译45附录C 程序部分49I1 绪论1.1 语音识别概述1.1.1语音识别研究的重要意义语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面，从而对计算机的发展以及推广应用产生深远的影响。随着计算机的小型化，键盘己经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作己经是不可能的。语音识别正逐步成为信

10、息技术中人机接口的关键技术，语音识别技术与语音合成技术的结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用己经成为一个具有竞争性的新兴高技术产业。语音识别技术作为声控产业，必将对编辑排版、办公自动化、工业过程和机器操作等的声控技术起到重大的推进作用。语音识别技术在人机交互应用中，也已经占到了越来越大的比例。如基于电话的语音识别技术，使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能，进而成为电子商务进展中的重要一环。在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络，人们可以通过语音命令方便

11、地从远端的数据库系统中查询与提取有关的信息。因此可以预见，语音技术必将对工业、金融、商业、文化、教育等诸方面产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点，一些主要先进国家都把语音识别的研究列为国家级的研究项目。语音识别按照其服务对象、词表大小、工作环境、发音方式、任务性质、识别方法等，可分为以下几类: (1)按发音方式按发音方式可分为孤立字语音识别系统、连接词语音识别系统和连续语音识别系统。孤立字发音识别系统指人在发音时，以单字的发音方式向语音识别系统输入语音，词与词之间要有足够的时间间隙。连接词语音识别系统指以词或词组为发音单位向系统输入语音。连续语音识别系统指

12、在输入语音时，完全按照人的最自然的说话方式输入。(2)按服务对象服务对象是指语音识别系统是提供给特定的人使用，还是不确定的任意人使用的。按服务对象可分为特定人和非特定人语音识别系统。 (3)按词汇表的大小每个语音识别系统都有一个词汇表.系统只能识别此表中包含的词条。按词汇表的大小可分为小词汇表识别系统、中等词汇表识别系统、大词汇表识别系统和无限词汇表识别系统。1.1.2 语音识别的发展现状语音识别的研究工作大约开始于五十年代，当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统一Audry系统。六十年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动

13、态规划(DP)和线性预测分析技术(LP)，而后者较好地解决了语音信号模型的问题，对语音识别的发展产生了深远影响。七十年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动态时间规整技术(DTW)基本成熟，特别是提出了矢量量化少Q)和隐马尔可夫模型(HMM)理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。八十年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT &TBell实验室的Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了

14、解和认识。ANN和HMM模型建立的语音识别系统性能相当。进入九十年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM, Apple, AT& T, NTT等著名公司都为语音识别系统的实用化开发投以巨资。我国语音识别研究工作起步于五十年代，但近年来发展很快，研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平己经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。其中，具有代表性的研究单位是清华大学

15、电子工程系与中科院自动化研究所模式识别国家重点实验室。由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统，识别精度达到了94. 8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下，系统识别率可以达到%.9%(不定长数字串)和98.7%(定长数字串)，这是目前国际上最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98. 73，前三选识别率达99.%，并且可以识别普通话与四川话两种方言，达到了实用要求。1.2 语音识别研究的现状及发展趋势1.2.1语音识别研究的现状目前，针对特定应用的中小词汇量、非特定人的语音识别技术发展已较为成熟，己经能够满足通常应用的要求，并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点。语音识别技术有非常广阔的应用前景，并将有长远发展。中国的语音和语言处理技术的研发略晚于国外,尽管如此也有25年

展开阅读全文