语音识别概述－金锄头文库

资源描述

《语音识别概述》由会员分享，可在线阅读，更多相关《语音识别概述（3页珍藏版）》请在金锄头文库上搜索。

1、语音识别项目概述1.语音识别概述与分类语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别(isolated word recognition)，关键词识别(或称关键词检出，keyword spotting)和连续语音识别。孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知

2、的若干关键词在何处出现。根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。注：在特定人语音识别中，不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。2.项目概述近年来，随着汽车产业的发展和汽车的普及，人们对车辆性能要求的不断提高，舒适性和便利性成为了当代社会汽车产业产业所追求的一致目标。因而车载电子产品的种类和功能也日益增加，越来越便于车主的使用，然而随之而来的也造成了操作的繁琐性，甚至于存在一定安全隐

3、患。车载设备以服务用户为目的，因此人们需要一种更方便、更自然、更加人性化的方式与控制系统交互，而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而，由于统计模型训练算法复杂，运算量大，一般由工控机、PC机或笔记本来完成，这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。嵌入式语音识别系统和PC机的语音识别系统相比，虽然其运算速度和内存容量有一定限制，但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点，特别适用于智能家居、机器人及消费电子等领域。结合这一应用背景，本项目以语音识别模块LD3320

4、为核心，结合Avr系列的MCU控制器，提出了一种方便现代生活的智能车载语音识别控制系统，以满足现代车辆车主在车内工作、休息、娱乐以及行车安全等方面的要求。本项目以语音识别技术为基础，利用语音命令作为人机接口，来实现对车上装备的音频和视频播放器、空调、电动车窗、移动电话、车载导航系统、卫星电台等电子产品进行智能控制的功能。1模块整体方案及架构语音识别包括两个阶段：训练和识别。不管是训练还是识别，都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是通过用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所

5、做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出。这样，最终就达到了语音识别的目的。现有的语音识别技术按照识别对象可以分为特定人识别和非特定人识别。特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；第二种方法相

6、对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。本项目的语音识别方案是以嵌入式微处理器为核心，外围加非特定人语音识别芯片及相关电路构成。语音识别芯片选用ICRoute公司的LD3320芯片。由于LD3320芯片的高度集成性，其中已包含有大量的已训练词汇数据库，因而需要我们处理的只有识别阶段的程序设计以及与MCU接口部分的连接以及通信方法的处理。2硬件电路设计硬件电路主要包括主控核心部分和语音识别部分。语音进入语音识别部分后，将处理过的数据并行传输到MCU, MCU经过处理后，发送命令数据到外围设备。在

7、基本的设计构想下，主要框架如下:罪特定人语音项目还拟定在系统中集成一个可视化界面，及LED显示器，可以显示系统正在进行的操作，避免发生意外故障。显示器方面初步设想采用LED12864，带中文字库的128X64是一种具有4位/8位并行、2线或3线串行多种接口方式，内部含有国标一级、二级简体中文字库的点阵图形液晶显示模块；其显示分辨率为128X64,内置8192个16*16点汉字，和128 个16*8点ASCII字符集.利用该模块灵活的接口方式和简单、方便的操作指令，可构成全中文人机交互图形界面。可以显示8X4行16X16点阵的汉字.也可完成图形显示低电压低功耗是其又一显著特点。由该模

8、块构成的液晶显示方案与同类型的图形点阵液晶显示模块相比，不论硬件电路结构或显示程序都要简洁得多，且该模块的价格也略低于相同点阵的图形液晶模块。LD3320的内部集成了快速稳定的优化算法，不需外接Flash、RAM,不需要用户事先训练和录音而完成非特定人语音识别，识别准确率高。详情可参见其技术手册。3控制过程综述实现方面，本项目主要以语音识别技术为支持，通过不同的语音命令达到控制相应的车载电子设备做出符合命令的开机或关闭以及其他反应。项目从结构上主要分为两个部分：语音辨识模块和车载电子设备的动作控制部分。对于后者，考虑到车载电子设备大多为成品，对其进行二次开发难度较大，操作起来也很不

9、方便，因此项目暂拟通过 MCU 直接控制各需要控制电器的电源插座来间接实现对这些电器的智能控制，当然技术成熟时也可以考虑直接在汽车上配套生产。因而可将语音识别控制器嵌入在车内合适位置，通过双绞线与所控电器如车载音响、空调、车载导航等相连，系统应配套相应显示设备，以实现人机交互过程的可视化，确保语音命令识别的准确率。对于语音辨识系统，项目采用LD3320语音识别模块为核心，进行非特定人语音辨识，即辨识过程中不考虑说话人声音音色、频率等的差异，只以发音词汇不同进行语音辨识。系统暂拟工作过程与功能如下：(1) 整个系统有一个手动开关,打开后语音识别智能控制系统启动。在MCU内部程序里，

10、设定“音响开”、 “音响关”、“空调开”、“空调关”等语音指令。(2) 当车主发出控制命令时，MIC模块将语音信号输入至LD3320模块，通过MCU与 LD3320的通信，将其语音与内置指令作对比，若与某条指令对照无误，则通过显示器，将该命令显示出来，并语音询问是否确定。若驾驶员回答“是”则通过MCU控制器的I/0 口输出相应的控制信号；否则，控制器不作为，继续等待下一条语音命令。(3) 由于MCU控制器的I/O 口输出信号驱动功率不够，因而系统应用光电隔离技术到车载电子设备的驱动电路中，以实现对相应车载设备的开关控制。并且，我们计划智能语音控制系统的驱动电路与原手动控制电路并存，保留原来手动控制的功能，在不影响原有功能和可靠性的基础上增加语音控制功能，以方便用户，提高生活水平。4 其他系统完成后，应针对系统做识别成功率测试，统计识别的成功率，并拟利用声学方面的滤波等知识，对输入声音信号进行滤波降噪，进而提高识别正确率以及系统稳定性。介于这是在项目后期所需要的拓展工作，因而在此先不进行详述。

展开阅读全文