智能语音识别遥控系统

资源描述

《智能语音识别遥控系统》由会员分享，可在线阅读，更多相关《智能语音识别遥控系统（22页珍藏版）》请在金锄头文库上搜索。

1、摘要语言是人类进行信息交流的最主要、最常用、最直接的方式。语音智能识别遥控技术既计算机自动语音识别遥控技术是实现遥控智能化的一项重大突破，在国外近年来发展十分迅速，其应用也逐步得到推广。但这些技术和应用都是针对英文使用者。语音智能识别遥控系统结合了计算机网络技术、数字线性逻辑技术、数字程控交换技术、数字语音信号识别技术，推出了适应多种语言智能识别系统，并能精确处理来自不同用户的发音，连续字句。使用者语音智能识别遥控来进行操纵的语音智能识别系统，由于智能型遥控是使用双模块和两级端点检测方法以及能有效地提高识别和稳健性；从而能更好的利用智能语音识别遥控系统来代替手工或半自动化器件

2、在家电和其他领域中的使用，展现了智能语音识别技术电遥控器应用，展现了智能语音识别技术在新时代广阔前景关键字：语音识别 ;传感器;学习型遥控器目录摘要 i目录 ii第 1 章前言 11.2 智能语音识别技术 11.3 智能语音识别在家电遥控器中的应用 2第 2 章智能语音识别在遥控器中的应用原理 32.1 语音识别概述 32.2 语音控制遥控器设计 7第 3 章语音识别及其定点 DSP 实现103.1 语音识别及其定点 DSP 实现 103.2 系统的硬件 113.3 语音识别的 DSP 实现技术123.3.1 变量的维护 123.3.2 采用模块化的程序设计方法 13第 4

3、章智能语音识别遥控系统技术 144.1 语音识别技术 144.2 DSP 芯片的选择 154.2.1 语音输入输出模拟前端的选择164.2.2 接口设计174.3 语音信号的端点检测 174.3.1 语音特征参数的提取和计算174.3.2 模式识别动态时间归整18第 5 章结论 20致谢错误！未定义书签。参考文献21第1 章前言本文主要是论述了智能语音识别遥控系统，随着科学技术的发展, 电子产品的更新换代进一步加快,现代电子设计已进入一个全新的阶段. 从手工开关到现在遥控开关 .从中小规模的通用集成芯片到单片机数字系统到智能语音识别遥控系统 ,在这一个过程克服了中小规模集成电路

4、在系统设计中的一些缺点,同时也提供了新的开发空间。11智能语音识别及其定点DSP实现。语音识别研究的根本目的是研究出一种具有听觉功能的机器，能直接接受人的口呼命令，理解人的意图并做出相应的反映。语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。近年来，高性能数字信号处理芯片DSP(Digital Signal Process)技术的迅速发展，为语音识别的实时实现提供了可能，其中， AD 公司的数字信号处理芯片以其良好的性价比和代码的可移植性被广泛地应用于各个领域。因此，我们采用AD公司的定点DSP

5、处理芯ADSP2181实现了语音信号的识别12 智能语音识别技术智能识别技术的研究与应用已有相当长的时间了，语音识别技术关系到多学科的研究领域，不同领域上的研究成果都对语音识别的发展做出了贡献。由于不同的说话人、不同的说话速度、不同的说话内容以及不同的环境条件等都使机器识别语音产生某种程度不同的困难。这是由语音信号本身的特点所造成的。这些特点包括多变性、，动态性、瞬时性和连续性等。一个完整的语音识别系统可大致分为 4 个部分：变化的语音特征序列。建立声学模型通常将获取的语音特征通过学习算法产生。模板匹配(识别算法)在识别时将输入的语音特征同声学模型进行比较，得到最佳的识别

6、结果。语言模型与语言处理由识别语音命令构成的语法网络，可以进行语法、语义分析。对小词表语音识别系统，往往不需要语言处理部分。1.3智能语音识别在家电遥控器中的应用介绍一种适合家电遥控器应用的语音识别算法，该算法使用双模块和两级端点检测方法，能有效地提高识别和稳健性；介绍利用该技术实现的一种新型学习型遥控器，展现了语音识别技术在家电领域的广阔前景。第 2 章智能语音识别在遥控器中的应用原理2.1 语音识别概述本章主要介绍一种适合家电遥控器应用的语音识别算法，该算法使用双模块和两级端点检测方法，能有效地提高识别和稳健性；介绍利用该技术实现的一种新型学习型遥控器，展现了语音识别技术

7、在家电领域的广阔前景。家用电器发展的一个重要方面是让用户界面更加人性化，更加方便自然，做到老年人和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。本文以语音控制遥控器为例，说明语音识别技术如何应用在家电器领域。适合家用电器应用的语音识别嵌入式系统结构如图 2-1 所示，它由四个部分组成。第一部分为模/数转换部分，其输入端接收输入的语音信号，并将其转化成数字芯片可处理的数字采集信号；在输出端将解码后的语音数字信号转换为音频模拟信号，通过扬声器放声。第二部分为语音识别部分，它的作用是对输入的数字语音词条信号进行分析，识别出词条信号

8、所代表的命令，一般由 DSP 完成。第三部分语音提示和语音回放部分，它一般也是在 DSP 中完成的，其核心是对语音信号进行数字压缩编码和解码，目的是提示用户操作并对识别语音的响应，完成人机的语音交互。第四部分是系统控制部分，它将语音识别结果转换成相应的控制信号，并将其输出转换成物理层操作，完成具体功能。语音识别与系统控制的有机结合是完成声控交互的关键，下面将对语音识别算法及遥控系统控制部分作详细的讨论。图 2-1 语音控制系统结构图其一、语音识别算法目前，常以单片机（MCU）或DSP作炎硬件平台的实现消费类电子产品中的语音识别。这类语音识别主要为孤立词识别，它有两种实现方案：一

9、种是基于隐含马尔科夫统计模型（HMM）框架的非特定人识别；另一种是基于动态规划（DP）原理的特定人识别。它们在应用上各有优缺点。 HMM 非特定人员的优点是用户无需经过训练，可以直接使用；并且具良好的稳定性（即对使用者而言，语音识别性能不会随着时间的延长而降低）。但非特定人语音识别也有其很难克服的缺陷。首先，使用该方法需要预先采集大量的语料库，以便训练出相应的识别模型，这就大大提高了应用此技术的前期成本；其次，非特定人语音识别很难解决汉语中不同方言的问题，限制了它的使用区域；另外还有一个因素也应予以考虑，家电中用于控制的具体命令词语最好不要完全固定，应当根据的用户的习惯而改变，

10、这一点在非特定人识别中几乎不可能实现。因此大多数家电遥控器不适合采用此方案。DP特定人识别的优点是方法简单，对硬件资源要求较低；此外，这一方法中的训练过程也很简单，不需预先采集过多的样本，不仅降低了前期成本，而且可以根据用户习惯，由用户任意定义控制项目的具体命令语句，因而适合大多数家电遥控器的应用。 DP特定识别的严重缺点是它的稳健性不理想，对有些人的语音识别率高，有的人识别率却不高；刚训练完时识别率较高，但随着时间的推迟而识别率降低。些缺点往往给用户带来不便。为克服这些缺陷，对传统方法作为改进，使识别性能和稳健性都有显著的提高，取得令人满意的结果。其二、端点检测方法影响孤立词识别

11、性能的一个重要因素是端点检测准确性 4。在 10 个英语数字的识别测试中，60毫秒的端点误差就使识别率下降 3%。对于面向消费类应用的语音识别芯片系统，各种干扰因素更加复杂，使精确检测端点问题更加困难。为此，提出了称为 FRED ( Frame-based Readl_time Endpoint Detection)算法3的两级端点检测方案，提高端点检测的精度。第一级对输入语音信号，根据其能量和过零率的变化，进行一次简单的实时端点检测，以便去掉静音得到输入语音的时域范围，并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的 FFT 分析结果

12、，分别计算出高频、中频和低频段的能量分布特性，用来判别轻辅音、浊辅音和元音；在确定了元音、浊音段后，再向前后两端扩展搜索包含语音端点的帧。FRED端点检测算法根据语音的本质特征进行端点检测，可以更好地适应环境的干扰和变化，提高端点检测的精度。在特定人识别中，比较了常用的 FED(Fast Endpoint Detection) 5和 FREDwww.biyezuopin.cc 两种端点检测算法的性能。两种算法测试使用相同的数据库，包括 7 个人的录音，每个人说 100个人名，每个人名读3遍。测试中的DP模板训练和识别算法为传统的固定端点动态时间伸缩(DTW)模板匹配算法4。两种端点

13、检测算法的识别率测试结果列在表 2-1中。端点检测算法第1人第2人第3人第4人第5人第6人第7人平均FED92.5%87%92.6%95.6%96.2%96.8%100%94.4%FRED94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%表 2-1 比较 FED 和 FRED 端点检测算法对 DTW 模板匹配识别率的影响测试结果说明：使用FRED端点检测算法，所有说话人的识别率都有了不同程度的提高。因此，本系统采用这种两级端点检测方案。其三、模拟匹配算法DTW是典型的DP特定人算法，为了克服自然语速的差异，用动态时间规整方法将模板特征序列和语音特征序列进行

14、匹配，比较两者之间的失真，得出识别判决的依据。假设存储的一个词条模板包括 M 帧倒谱特征R二r(m);m=l,2, A ,M；识别特征序列包括N帧倒谱特征 T=t(n);n=l,2, A ,N。在r(i)和t(i)之间定义帧局部失真 D(i,j),D(i,j) = |r(i)- t(i)|2，通过动态规划过程，在搜索路径中找到累积失真最小的路径，即最优的匹配结果。采用对称形式 DTW： S(i-1,j-2)+2D(I,j-1)+d(I,j)(1)S(I,j)=mins(i-1,j-1)+2D(i,j)S(i-2,j-1)+2D(i-1,j)+d(i,j)其中S(i,j)是累积失真,D (

15、i,j)是局部失真。当动态规划过程计算到固定结点(N，M)时，可以计算出该模板动态匹配的归一化距离，识别结果即该归一化距离最小的模板词条：x二argminS(N,Mx)。为了提高 DTW 识别算法的识别性能和模板的稳健性，提出了双模板策略，即 x=argminS(N,M2x)。第一次输入的训练词条存储为第一个模板，第二次输入的相同训练词条存储为第二个模板，希望每个词条通过两个较稳健的模板来保持较高的识别性能。与上面测试相同，也利用 7个人说的 100个人名，每个人名含3遍的数据库，比较DTW单模板和双模板的性能差别，结果更在表 2-2 中。DTW第1人第2人第3人第4人第5人第6人第7人平均单模板94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%双模板99.4%96.6%98.5%100%100%98.8%100%99.0%表 2-2 DTW 不同模板数的识别率比较测试结果说明：通过存储两个模板，相当大地提高了 DTW识别的性能，其稳健性也有很大的提高。因此，对特定人识别系统，采用DTW双模板是简单有效的策略。综上所述，该嵌入式语音识别芯片系统采用了改进端点检测性能的 FRED算法，

展开阅读全文

智能语音识别遥控系统

最新文档