STC10L08XE基于语音识别的智能控制系统开发

资源描述

《STC10L08XE基于语音识别的智能控制系统开发》由会员分享，可在线阅读，更多相关《STC10L08XE基于语音识别的智能控制系统开发（19页珍藏版）》请在金锄头文库上搜索。

1、-范文最新推荐-1 / 19STC10L08XE 基于语音识别的智能控制系统开发摘要语音识别技术是语音信号处理的重要应用之一，是实现语音控制的关键技术，自然语音的人机交互也是当前的研究热点和难点。本文设计了基于 ICRoute公司的 LD3320 语音识别芯片和 STC10L08XE 单片机的智能控制系统，并用该系统实现了语音智能点歌和LED 点阵显示的功能，获得了较好的实验效果。本文首先简述了语音识别的基本概念、相关理论、发展历史和现状，以及 LD3320 芯片的基本功能、硬件数据、驱动程序和 SPI 串行总线协议，然后详细阐述了语音控制系统的基本功能、硬件结构、主控程序以及测试工作。对该系

2、统软件设计和硬件接口部分稍加改动，便可应用到智能导航、智能家居、自动售货以及各类电子电器产品的语音控制中，具有广泛的应用前景。10590 关键词：语音识别； LD3320 芯片；智能点歌；LED 显示毕业设计说明书（论文）外文摘要Title Intelligent Control System Based on Speech RecognitionAbstractSpeech recognition technology is an important application of speech signal processing technology and the key to reali

3、ze voice-controlled technology. Nowadays the Human-Computer Interaction of natural voice is the hot and difficult point in speech recognition research fields. This paper introduces the design of the intelligent voice-controlled system based on the LD3320 chip designed by ICRoute company and the STC1

4、0L08XE MCU. It also tells how to realize the function of requesting songs and displaying 8×8 LED with this system and the -范文最新推荐-3 / 19experimental result turned out to be wonderful.Firstly, the paper introduces the speech recognition technology about the basic concepts, related theories, dev

5、elopment and current situation. Then, it presents the basic function, hardware structure and drive means of LD3320. The structure of the system and the hardware and software design of MCU module have been related in detail. After slight alteration, the system could be applied to intelligent guides,

6、homes, and various kinds of electronic products, etc. It has immense potential and a brilliant future in the application field. 参考文献 311 引言语音是人与人进行交流的一种最直接、最自然、最方便的方式。它的传播速度快，无严格的方向限制，又可以在黑暗中传播，是图片、文字或按钮等其他视、触觉信息无法替代的工具1,2。语音识别（ASR，Automatic Speech Recognition）技术最重要的现实意义就在于提供了一种脱离视觉和触觉的基于语音的用户界面（

7、VUI，Voice User Interface），使得用户对于产品的操作更快速、更自然。早在二十世纪四、五十年代，人们已经开始进行ASR 技术的研究。随着计算机的出现和发展，与机器进行语言交流使之理解人的语言并执行人的旨意，就一直是人们的梦想和追求。而“人—机交流”的首要前提是机器能够识别人类的语言，即进行语音识别3。语音识别属于数字信号处理的研究领域，其算法初期是依靠计算机、数字信号处理器等来实现的，但随着微电子学和集成电路技术的发展，近年来不断有专用语音识别芯片投放市场4。在现有的许多产品例如LD3320 中，集成了语音识别、声控、人机对话功能，识别

8、的关键词语列表是可以任意动态编辑的，满足了小体积、低功耗、易于通用的要求，因而本声控系统有着广泛的应用前景5。-范文最新推荐-5 / 19语音识别有着非常广阔的应用领域，例如智能家居、智能玩具、自动售货等等，这些领域下语音控制提高了设备的易用性。另外，在某些场合操作者需要用手控制其它设备，比如驾驶员驾驶过程中，其双手不宜离开方向盘，这时的导航操作用语音控制最合适；或者非常强调响应时间，比如军事训练中的紧急处置，不允许操作者进行复杂的手动操作，语音控制就成为一项必要的选择。采用语音识别作为人机接口的设备能够具有简便、快捷、灵活的优点，其在军事、民用和商业领域都发挥了巨大的作用，一定会在未来成为新

9、一代操作系统的接口6-10。语音质量通常由说话人发音的清楚程度及发音时的背景噪声决定，语音质量不高时往往要求识别系统具有较高的鲁棒性。评价语音识别系统，要在上述标准相同的情况下，比较识别正确率。识别正确率越高，系统的性能越好。另外，完成识别所需要的计算量和存储量，即识别算法的复杂性也是评价系统的一种指标。语音识别技术是一门多学科交叉技术。要建造一个性能优良的语音识别系统，往往需要声学（Acoustics）、语音学（Phonetics）、语言学（Linguistics）、生理学（Physiology）、心理学（Psychology）、计算机科学、信息论、信号处理、模式识别、人工智能等

10、多门学科的理论知识。22 语音识别的基本方法语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元13。它的基本结构如图 2.1 所示：图 2.1 语音识别系统的基本结构图-范文最新推荐-7 / 19未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查

11、表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机(SVM)等方法。动态时间规整算法（DTW）基于动态规划的思想，解决了发音长短不一的模板匹配问题，是出现较早、较常用的一种算法；隐马尔可夫模型（HMM）是一种统计模型，它基于参数模型的统计，是较理想的语音识别模型；矢量量化（VQ）是一种信号压缩方法，适用于小词汇量、孤立词的语音识别；人工神经网络（ANN）本质上是一个自适应非线性动力学系统，模

12、拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性；支持向量机（SVM）是应用统计学理论的一种新的学习机模型，可以有效克服传统经验风险最小化方法的缺点。（2）语音特征的提取，包括语音端点的准确检测、反映人的感知特征的鲁棒特征参数的提取和设计新的语音特征测度来最小化分类误差使特征参数最优。（3）利用语音语料库进行声学模型及训练的研究，包括 HMM 模型研究和神经网络模型研究等。（4）不依赖说话人的声学模型的研究，如树结构模型的说话人聚类研究、使用少量数据进行适应性研究、增加在线适应性研究等。（5）利用语言语料库进行语言模型和语言学约束的研究。-范文最新推荐-9 / 19（6

13、）词典设计和候选词有效搜寻的研究。值得一提的是，语音识别技术在网络方面的发展势必引入云技术，好处是：（1）在用户层面上，云端向终端提供了革命性的计算和存储能力。（2）对于运营商而言，云服务运用还非常易于获得海量有标签的训练样本，从而帮助研究人员持续改进识别性能。（3）云语音更将挑战“发音习惯”、“用词习惯”等传统技术难以解决的技术难点。3 语音识别芯片LD3320 是基于非特定人语音识别（SI-ASR：Speaker-Independent Automatic Speech Recognition）技术的语音识别芯片，提供了真正的单芯片语音识别解

14、决方案。芯片上集成了高精度的A/D 和 D/A 接口，不再需要外接辅助的 Flash 和RAM，即可以实现语音识别、声控、人机对话功能。并且，识别的关键词语列表是可以动态编辑的。只需要设定好要识别的关键词语列表，并把这些关键词语以字符的形式传送到 LD3320 内部，就可以对用户说出的关键词语进行识别。不需要用户作任何地录音训练。基于 LD3320，可以在任何的电子产品甚至包括最简单的以 51 单片机为主控芯片的系统中，轻松实现声控功能，为所有的电子产品增加 VUI（Voice User Interface）语音用户操作界面 14,15。（1）触发识别模式：系统的主控 MCU 在接受到外界一个触发后（比如用户按动某个按键），启动 LD3320 芯片的一个定时识别过程（比如 5s），要求用户在这个定时过程中说出要识别的语音关键词语。过了这个过程后，需要用户再次触发才能再次启动一个识别过程。-

展开阅读全文