基于omap5912的嵌入式语音识别引擎的研究

上传人:E**** 文档编号:114232577 上传时间:2019-11-10 格式:PDF 页数:76 大小:9.48MB
返回 下载 相关 举报
基于omap5912的嵌入式语音识别引擎的研究_第1页
第1页 / 共76页
基于omap5912的嵌入式语音识别引擎的研究_第2页
第2页 / 共76页
基于omap5912的嵌入式语音识别引擎的研究_第3页
第3页 / 共76页
基于omap5912的嵌入式语音识别引擎的研究_第4页
第4页 / 共76页
基于omap5912的嵌入式语音识别引擎的研究_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《基于omap5912的嵌入式语音识别引擎的研究》由会员分享,可在线阅读,更多相关《基于omap5912的嵌入式语音识别引擎的研究(76页珍藏版)》请在金锄头文库上搜索。

1、太原理工大学 硕士学位论文 基于OMAP5912的嵌入式语音识别引擎的研究 姓名:崔金芳 申请学位级别:硕士 专业:信号与信息处理 指导教师:张雪英 20070401 太原理工大学硕士研究生学位论文 I 基于 OMAP5912 的嵌入式语音识别引擎的研究 摘 要 目前嵌入式语音识别系统多数是基于 ARM、 DSP 或单片机开发的孤立 词、特定人、小词汇量语音识别,使语音识别技术的应用受到一定的局限。 本课题就是针对现有嵌入式语音识别系统的不足,在 TI OMAP5912 上开发 中等词汇量、非特定人、连续语音识别系统。 论文介绍了卡内基梅陇大学 CMU 开发的面向嵌入式终端的语音识别 引擎 P

2、ocketSphinx,该引擎主要包括四部分:前端语音特征参数的提取,声 学模型的训练,语言模型的建立和 Viterbi 搜索算法。论文将特征参数提取 和 Viterbi 搜索作为算法研究的主要对象。 讨论了针对 OMAP 处理器双核通 信专门开发的软件 DSPgateway。 涵盖了双核之间的通信方式, ARM 和 DSP 端的软件开发以及 DSP 的加载方式。根据语音识别的特性,设定 ARM 端 的数据传输方式为,主动发送被动接收;DSP 端的数据传输方式为,主动 发送主动接收,并将 DSP 的加载方式设定为动态加载。 在此基础上,着重讨论了针对 OMAP5912 处理器双核的特点,在 P

3、ocketSphinx 的核心算法、系统架构、模块规划、特征参数和 Viterbi 代码 在 DSP 上实现所做的大量优化。采用并行处理技术,利用了 DSP 快速处理 数字信号的特性,以及 TI 提供的 C55x 函数库,将语音识别引擎的计算密 集型任务安排到 DSP 异步执行,极大地提高了代码的效率,降低了部分代 码的繁琐复杂程度。并结合 ARM 的控制特性,通过双核协作建立基于嵌 入式的语音识别系统。 太原理工大学硕士研究生学位论文 II 在嵌入式资源有限的环境下,本文设计的嵌入式语音识别引擎,在确 保系统识别率为 80%以上,实时性提高了 0.9,为嵌入式人机语音交互系统 提供了一个较好

4、的语音识别引擎。 关键词:嵌入式系统,语音识别,OMAP5912,DSPgateway 太原理工大学硕士研究生学位论文 III STUDY OF EMBEDDED SPEECH RECOGNITION ENGINEERING BASED ON OMAP5912 ABSTRACT Right now, most of the embedded systems develop isolated words, depedent, small vocabulary speech recognition based on ARM, DSP or singlechip, which leads to li

5、mitted application of speech recognition technique. A medium vocabulary, independent, continuous speech recognition system was implemented on TI OMAP 5912 to make up the shortage of the existing embedded speech recognition systems. The paper introduces Carnegie Mellon University embedded speech reco

6、gnition engineering, PocketSphinx, which includes four main parts: Speech feature parameter extraction, Acoustic model training,language model,Viterbi Beam search. The algrithem study focused on feature parameter extraction and Viterbi Beam search. It discussed the software DSPgateway which is speci

7、al development for OMAP serial processor communication, Talked about the communication mode, software development of ARM side and DSP side, and DSP loading manner. According to the characteristic of speech recognition set the data transfer manner on ARM side as active send, passive receive, and acti

8、ve send active receive on DSP side. Then set the DSP as dynamic loading. On the above basis, the thesis focused on optimizing the task about implement 太原理工大学硕士研究生学位论文 IV of the kernel algorithm, system frame, module design, feature parameter and Viterbi search on DSP to make full use of OMAP Dual-Co

9、re processor. Adopting parallel processing technology and taking the advantage of DSP (a fast digital signal processor) and C55x function lib, DSP takes charge of the densely computational part, which improved code efficiency, and reduced complexity. Combining ARMs control speciality, embedded recog

10、nition system is established through collaboration of dual core. With limited embedded resource,embedded speech recognition engineering designed in this paper which improved system real-time performance about 0.9, and kept recognition rate above 80%, provides embedded speech recognition system with

11、a better speech recognition engineering. KEY WORDS: embedded system, speech recognition, OMAP5912, DSP gateway 太原理工大学硕士研究生学位论文 1 第一章 绪论 语音识别是计算机通过识别把语音信号转变为相应文本的技术, 属于多维模式识别 和智能计算机接口的范畴。语音识别的研究目标是让计算机“听懂”人类口述的语言。 听懂是不仅将口述语言逐词逐句地转换为相应的书面语言, 而且能对口述语言中所包含 的要求或询问做出正确的响应,不拘泥于将所有词都正确地转换为书面文字。语音识别 技术广泛应用与语

12、音通信系统、声控电话交换、数据查询、订票系统、宾馆医疗服务、 银行服务、计算机控制、工业控制等领域。它在机器人控制、保密系统等领域中正成为 关键、具有竞争力的技术。 1.1 语音识别概述 1.1.11.1.1 语音识别的发展历史与与现状 语音识别起始于 20 世纪 50 年代 AT而对于大词汇量的电 话语音的识别,美国 Carneigie-Mellon 大学的系统词误识率为 45.1%。这些系统代表着 目前语音识别的最高水平。小词汇表语音系统也具有广泛的应用价值,英语数字语音识 别的串识别率己达到 99%以上,而具有高混淆度的英语字母的识别率也达到了 97%以 上。一些有限词汇量的语音识别系统

13、已经在实际中得到应用,如户 AT 2说话人识别:它是指识别出说话人是谁,是从语音信号中提取出说话人的特征, 而不考虑语音中所说话的语义内容,强调说话人的个性。 从不同的角度和要求出发,语音识别有不同的分类方法: (1)按照词汇表的大小划分 ? 小词汇表(词汇量小于 100) ? 中词汇表(词汇量在 100 和 1000 之间) ? 大词汇表(词汇量大于 1000) ? 无限词汇识别(全音节识别) 一般而言,随着词汇量的增多,各词汇之间的混淆性增加,系统实现将变得更加 困难,系统识别率也会降低。 (2)按照发音方式划分 ? 孤立词识别(IsolatedwodrReeo,ition) ? 连接词识

14、别(ConneetedWodrReeo,ition) ? 连续语音识别(eontinuousspeeehReeo,ition) 连续语音识别是指说话人以日常自然的方式讲述并进行识别, 而孤立词识别是语音 识别的基础。 (3)按照说话人的限定范围划分 ? 特定人语音识别(Speaker-Dpendent) ? 非特定人语音识别(Spekaer-Indpenedent) 特定人语音识别系统往往用于特殊的场合,而非特定人语音识别系统可以针 对不同的人工作,通用性好、应用需求更广。 太原理工大学硕士研究生学位论文 6 1.2 嵌入式语音识别技术的研究发展 就目前语音识别技术的发展而言,基于 PC 机的

15、语音识别系统己经趋于成熟,而且 还出现了一些具有实用价值和市场前景的语音识别芯片。在当今的市场上,手机、PDA 等各种移动终端已经让人们眼花缭乱。工作、生活、沟通和娱乐的需要使得移动终端的 用户飞速增长。这些嵌入式设备尽管具有很好的便携性,但很大程度上是以损失人机交 互的方便性为代价的。尽管移动设备的计算能力、存储量还远低于桌面系统,但其发展 速度已经证明这些方面的改善只是时间问题。小屏幕、小键盘是移动设备的天然特性, 在人性化要求越来越强烈的时代, 这种不方便性显然已经成为人们对移动设备最大的不 满。而语音技术正是解决便携式设备交互问题的唯一途径。尽管目前的技术还不足以完 全解决在手机上进行

16、文字输入,但是利用语音技术、再配以简单的按键操作,就可以实 现人机的简单交互,从而大大提高操作的方便性和便携式设备的人性化程度。而且随着 语音技术的发展和移动设备计算能力和存储能力的提高, 语音成为移动设备的操作界面 是大势所趋。因此这将是一个巨大而迅速发展的市场。 嵌入式语音识别系统和 PC 机的语音识别系统相比,虽然其运算速度和内存容量有 一些限制,但是它也有自己的一些特点。嵌入式系统具有体积小、可靠性高、耗电低、 投入小、便于移动等优点,这是嵌入式语音识别系统和 PC 机的语音识别系统相比的最 大优势。而且嵌入式语音识别系统多为实时系统,当用户说完话后,系统能够立即完成 对用户词条的识别并做出反映。这些特点决定了嵌入式语音识别系统的应用十分的广 泛。可以预测在近几年内,嵌入式语音识别系统的应用将更加广泛。各种各样的语音识 别系

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号