基于omap5912的嵌入式语音识别引擎的研究

资源描述

《基于omap5912的嵌入式语音识别引擎的研究》由会员分享，可在线阅读，更多相关《基于omap5912的嵌入式语音识别引擎的研究（76页珍藏版）》请在金锄头文库上搜索。

1、太原理工大学硕士学位论文基于OMAP5912的嵌入式语音识别引擎的研究姓名：崔金芳申请学位级别：硕士专业：信号与信息处理指导教师：张雪英 20070401 太原理工大学硕士研究生学位论文 I 基于 OMAP5912 的嵌入式语音识别引擎的研究摘要目前嵌入式语音识别系统多数是基于 ARM、 DSP 或单片机开发的孤立词、特定人、小词汇量语音识别，使语音识别技术的应用受到一定的局限。本课题就是针对现有嵌入式语音识别系统的不足，在 TI OMAP5912 上开发中等词汇量、非特定人、连续语音识别系统。论文介绍了卡内基梅陇大学 CMU 开发的面向嵌入式终端的语音识别引擎 P

2、ocketSphinx，该引擎主要包括四部分：前端语音特征参数的提取，声学模型的训练，语言模型的建立和 Viterbi 搜索算法。论文将特征参数提取和 Viterbi 搜索作为算法研究的主要对象。讨论了针对 OMAP 处理器双核通信专门开发的软件 DSPgateway。涵盖了双核之间的通信方式， ARM 和 DSP 端的软件开发以及 DSP 的加载方式。根据语音识别的特性，设定 ARM 端的数据传输方式为，主动发送被动接收；DSP 端的数据传输方式为，主动发送主动接收，并将 DSP 的加载方式设定为动态加载。在此基础上，着重讨论了针对 OMAP5912 处理器双核的特点，在 P

3、ocketSphinx 的核心算法、系统架构、模块规划、特征参数和 Viterbi 代码在 DSP 上实现所做的大量优化。采用并行处理技术，利用了 DSP 快速处理数字信号的特性，以及 TI 提供的 C55x 函数库，将语音识别引擎的计算密集型任务安排到 DSP 异步执行，极大地提高了代码的效率，降低了部分代码的繁琐复杂程度。并结合 ARM 的控制特性，通过双核协作建立基于嵌入式的语音识别系统。太原理工大学硕士研究生学位论文 II 在嵌入式资源有限的环境下，本文设计的嵌入式语音识别引擎，在确保系统识别率为 80%以上，实时性提高了 0.9，为嵌入式人机语音交互系统提供了一个较好

4、的语音识别引擎。关键词：嵌入式系统，语音识别，OMAP5912，DSPgateway 太原理工大学硕士研究生学位论文 III STUDY OF EMBEDDED SPEECH RECOGNITION ENGINEERING BASED ON OMAP5912 ABSTRACT Right now, most of the embedded systems develop isolated words, depedent, small vocabulary speech recognition based on ARM, DSP or singlechip, which leads to li

5、mitted application of speech recognition technique. A medium vocabulary, independent, continuous speech recognition system was implemented on TI OMAP 5912 to make up the shortage of the existing embedded speech recognition systems. The paper introduces Carnegie Mellon University embedded speech reco

6、gnition engineering, PocketSphinx, which includes four main parts: Speech feature parameter extraction, Acoustic model training，language model，Viterbi Beam search. The algrithem study focused on feature parameter extraction and Viterbi Beam search. It discussed the software DSPgateway which is speci

7、al development for OMAP serial processor communication, Talked about the communication mode, software development of ARM side and DSP side, and DSP loading manner. According to the characteristic of speech recognition set the data transfer manner on ARM side as active send, passive receive, and acti

8、ve send active receive on DSP side. Then set the DSP as dynamic loading. On the above basis, the thesis focused on optimizing the task about implement 太原理工大学硕士研究生学位论文 IV of the kernel algorithm, system frame, module design, feature parameter and Viterbi search on DSP to make full use of OMAP Dual-Co

9、re processor. Adopting parallel processing technology and taking the advantage of DSP (a fast digital signal processor) and C55x function lib, DSP takes charge of the densely computational part, which improved code efficiency, and reduced complexity. Combining ARMs control speciality, embedded recog

10、nition system is established through collaboration of dual core. With limited embedded resource,embedded speech recognition engineering designed in this paper which improved system real-time performance about 0.9， and kept recognition rate above 80%, provides embedded speech recognition system with

11、a better speech recognition engineering. KEY WORDS: embedded system, speech recognition, OMAP5912, DSP gateway 太原理工大学硕士研究生学位论文 1 第一章绪论语音识别是计算机通过识别把语音信号转变为相应文本的技术，属于多维模式识别和智能计算机接口的范畴。语音识别的研究目标是让计算机“听懂”人类口述的语言。听懂是不仅将口述语言逐词逐句地转换为相应的书面语言，而且能对口述语言中所包含的要求或询问做出正确的响应，不拘泥于将所有词都正确地转换为书面文字。语音识别技术广泛应用与语

12、音通信系统、声控电话交换、数据查询、订票系统、宾馆医疗服务、银行服务、计算机控制、工业控制等领域。它在机器人控制、保密系统等领域中正成为关键、具有竞争力的技术。 1.1 语音识别概述 1.1.11.1.1 语音识别的发展历史与与现状语音识别起始于 20 世纪 50 年代 AT而对于大词汇量的电话语音的识别，美国 Carneigie-Mellon 大学的系统词误识率为 45.1%。这些系统代表着目前语音识别的最高水平。小词汇表语音系统也具有广泛的应用价值，英语数字语音识别的串识别率己达到 99%以上，而具有高混淆度的英语字母的识别率也达到了 97%以上。一些有限词汇量的语音识别系统

13、已经在实际中得到应用，如户 AT 2说话人识别:它是指识别出说话人是谁，是从语音信号中提取出说话人的特征，而不考虑语音中所说话的语义内容，强调说话人的个性。从不同的角度和要求出发，语音识别有不同的分类方法: （1）按照词汇表的大小划分 ? 小词汇表(词汇量小于 100) ? 中词汇表(词汇量在 100 和 1000 之间) ? 大词汇表(词汇量大于 1000) ? 无限词汇识别(全音节识别) 一般而言，随着词汇量的增多，各词汇之间的混淆性增加，系统实现将变得更加困难，系统识别率也会降低。（2）按照发音方式划分 ? 孤立词识别(IsolatedwodrReeo，ition) ? 连接词识

14、别(ConneetedWodrReeo，ition) ? 连续语音识别(eontinuousspeeehReeo，ition) 连续语音识别是指说话人以日常自然的方式讲述并进行识别，而孤立词识别是语音识别的基础。（3）按照说话人的限定范围划分 ? 特定人语音识别(Speaker-Dpendent) ? 非特定人语音识别(Spekaer-Indpenedent) 特定人语音识别系统往往用于特殊的场合，而非特定人语音识别系统可以针对不同的人工作，通用性好、应用需求更广。太原理工大学硕士研究生学位论文 6 1.2 嵌入式语音识别技术的研究发展就目前语音识别技术的发展而言，基于 PC 机的

15、语音识别系统己经趋于成熟，而且还出现了一些具有实用价值和市场前景的语音识别芯片。在当今的市场上，手机、PDA 等各种移动终端已经让人们眼花缭乱。工作、生活、沟通和娱乐的需要使得移动终端的用户飞速增长。这些嵌入式设备尽管具有很好的便携性，但很大程度上是以损失人机交互的方便性为代价的。尽管移动设备的计算能力、存储量还远低于桌面系统，但其发展速度已经证明这些方面的改善只是时间问题。小屏幕、小键盘是移动设备的天然特性，在人性化要求越来越强烈的时代，这种不方便性显然已经成为人们对移动设备最大的不满。而语音技术正是解决便携式设备交互问题的唯一途径。尽管目前的技术还不足以完全解决在手机上进行

16、文字输入，但是利用语音技术、再配以简单的按键操作，就可以实现人机的简单交互，从而大大提高操作的方便性和便携式设备的人性化程度。而且随着语音技术的发展和移动设备计算能力和存储能力的提高，语音成为移动设备的操作界面是大势所趋。因此这将是一个巨大而迅速发展的市场。嵌入式语音识别系统和 PC 机的语音识别系统相比，虽然其运算速度和内存容量有一些限制，但是它也有自己的一些特点。嵌入式系统具有体积小、可靠性高、耗电低、投入小、便于移动等优点，这是嵌入式语音识别系统和 PC 机的语音识别系统相比的最大优势。而且嵌入式语音识别系统多为实时系统，当用户说完话后，系统能够立即完成对用户词条的识别并做出反映。这些特点决定了嵌入式语音识别系统的应用十分的广泛。可以预测在近几年内，嵌入式语音识别系统的应用将更加广泛。各种各样的语音识别系

展开阅读全文

基于omap5912的嵌入式语音识别引擎的研究

最新文档