基于vq的大学生语音识别算法研究学位论文.doc

上传人:ni****g 文档编号:546031698 上传时间:2023-05-28 格式:DOC 页数:70 大小:7.22MB
返回 下载 相关 举报
基于vq的大学生语音识别算法研究学位论文.doc_第1页
第1页 / 共70页
基于vq的大学生语音识别算法研究学位论文.doc_第2页
第2页 / 共70页
基于vq的大学生语音识别算法研究学位论文.doc_第3页
第3页 / 共70页
基于vq的大学生语音识别算法研究学位论文.doc_第4页
第4页 / 共70页
基于vq的大学生语音识别算法研究学位论文.doc_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《基于vq的大学生语音识别算法研究学位论文.doc》由会员分享,可在线阅读,更多相关《基于vq的大学生语音识别算法研究学位论文.doc(70页珍藏版)》请在金锄头文库上搜索。

1、LANZHOU UNIVERSITY OF TECHNOLOGY毕业论文题 目: 基于VQ的大学生语音识别算法研究 College Students Speech Recognition based on VQ Algorithm 兰州理工大学毕业论文摘 要语音识别主要研究的是使机器能够准确的听出说话人语音内容的问题,即语音识别的最终目的是使计算机能够准确的识别任何人、任何内容的讲话。语音识别技术是一项集声学、语言学、计算机、信息处理、人工智能等领域的综合技术,在计算机、信息处理、通信与电子系统、自动控制等领域中,以及工业、军事、交通、医学、民用等诸多方面有着广泛的应用。语音识别系统从本质上说

2、是一种模式识别系统,其基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等基本单元。矢量量化技术在语音识别中占有很重要的地位,其包括码书设计、码字搜索和码字索引分配,前两者尤为重要。本文主要讲了矢量量化过程中最佳码书设计算法-LBG算法的设计和实现,利用MATLAB工具进行仿真的实现。比对实验数据结果可看出LBG算法是一种下降算法,在仿真过程中,每次迭代的平均失真具有单调不增特性(或者大小至少保持不变),可用来改进训练序列的初始码书从而生成最佳码书,同时通过仿真过程还可看出LBG存在运算量和存储空间大,易得到局部最优码书的特点;最后运用仿真工具,通过改变数据量、码书维数、量化

3、压缩比、最小失真门限等参数进行了大量仿真实验,比对仿真数据结果,对LBG算法的实现过程和参数性能特点进行了分析。关键词:语音识别;矢量量化(VQ);LBG算法AbstractThe main speech recognition is to accurately machine can hear the speakers voice content problem that speech recognition is the ultimate goal enables a computer to accurately identify the person, any speech conten

4、t. Speech recognition technology is a set of acoustics, linguistics, computer, information processing, artificial intelligence and other areas of integrated technology, computer, information processing, communications and electronic systems, automatic control and other areas, as well as industrial,

5、military, transportation, medical , has a wide range of civilian and many other applications.Speech recognition systemis essentially apattern recognition system,the basic structureand the conventionalpattern recognitionsystem,includingfeature extraction,pattern matching reference modellibraryand oth

6、er basicunits.Vector Quantization in speech recognition technology plays a very important role, which includes codebook design, code word search and codeword index distribution, the first two particularly important. This article is mainly about the best course of vector quantization codebook design

7、LBG algorithm and implementation using MATLAB simulation tool implementations. The results of the experimental data than can be seen LBG algorithm is a descent algorithm, the simulation process, with each iteration the average distortion does not increase monotonically characteristics (size, or at l

8、east remain unchanged), can be used to improve initial codebook training sequence to generate optimal code book, but can also be seen through the simulation process LBG presence of large amount of computation and storage space, easy to get the characteristics of the local optimal codebook. Finally,

9、the use of simulation tools, by varying the amount of data, the codebook dimension, quantization compression ratio, the minimum distortion threshold and other parameters of a large number of simulation experiments, compared to the simulation result, the data for the implementation process and the pa

10、rameters of performance characteristics of the LBG algorithm is analyzed.Key words: speech recognition; Vector Quantization (VQ); LBG algorithm目 录第一章 绪论11.1概述11.2研究语音识别的目的及意义11.3矢量量化技术的发展历程2第二章 基本原理42.1语音识别42.2矢量量化62.2.1矢量量化的基本概念72.2.2矢量量化步骤92.3矢量量化器92.4失真测度10第三章 矢量量化器的设计算法123.1最佳码本的设计123.2 LBG算法的实现

11、133.2.1 LBG算法实现流程设计133.2.2 LBG算法初始码书的选取143.2.3 LBG算法常见的问题16第四章 仿真结果及性能分析174.1 MATLAB开发平台简介174.2 LBG算法的设计仿真及结果分析174.2.1矢量量化器的LBG算法仿真及结果分析174.2.2修改参数后矢量量化器的LBG算法仿真及结果分析20结 论26参考文献27附录一 外文翻译28外文原文28外文译文44附录二 程序61致 谢65第一章 绪论1.1概述语言是人和动物最基本,同时也是最重要的信息交换形式,语音信号是构成其思想疏通和情感交流的最主要途径。通信系统中最常见的数据形式就是语音数据。人类目前已

12、经进入信息化时代,用现代化手段研究语音处理技术,能使我们更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。社会进入21世纪,信息在各个领域发生了大爆炸的态势,同时伴随着数字信号的数据量迅速暴增,对存储器的存储容量、通信信道的带宽以及计算机的处理速度带来很大的压力,因此,在这种情况下需要对数据进行量化压缩以达到紧缩数据存储容量的目的 ,该方法能够较快地传输各种信号 ,并使发信机功率降低。数字语音通信的两个关键技术是语音质量和传输码率,同时这两者之间又是矛盾的:要获得较高的语音质量,就必须使用较高的传输码率;相反,为了实现高效地压缩传输码率,就很难得到良好的语

13、音质量。然而采用矢量量化技术是一种既能得到高效压缩的传输码率 ,又能保证较好的语音质量的方法。矢量量化(VQ, Vector Quantization)技术是Steinhaus在1956年首次提出的,并于20世纪70年代后期发展起来的一种数据压缩和编码技术,现已广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。在许多领域的课题研究中,矢量量化技术都起着非常重要的作用。采用矢量量化技术对信号波形或参数进行压缩处理,可以获得很好的效果。矢量量化技术不仅可以压缩表示语音参数所需的数码率,而且在减少运算量方面也是非常高效的,它还能直接用于构成语音识别和说话人识别系统。量化一般可以分为两大类,一

14、类是把抽样后的信号值逐个进行量化的标量量化;另一类量化是先将k个抽样值组成k维空间中的一个矢量,然后将此矢量进行量化,称之为矢量量化(VQ),它可以极大的降低数码率,优于标量量化。各种数据都可以用矢量表示,直接对矢量进行量化,可以方便的对数据进行压缩。矢量量化属于不可逆压缩方法,具备比特率低,解码简单,失真较小的优点。1.2研究语音识别的目的及意义语音识别在语音链中是很重要的的一环,其研究的最终目的是使计算机能够准确的识别任何人、任何内容的讲话。语音识别属于多维模式识别以及智能计算机接口的范畴,是一项集声学、语言学、计算机工程、信息处理、人工智能等领域的综合技术,在计算机技术、信息处理、通信与

15、电子系统、自控制等领域,以及交通、医学、工业、军事、民用等诸多方面有着广泛的应用。语音识别是一门新兴科学,是近来国内外竞相研究的热点,信息产业迅速发展的要求促使着科技、工业及国防部门投入大量人力和财力来对其进行重点研究,其中包括计算机、通信、国防、机器人等关乎于国计民生的科技领域。语音识别主要具有如下优点:(1) 语音是人类最自然、最方便的交互工具,不需要作专门训练。(2) 如果能输入专门的声音,这与使用打字机和按钮等方法比较,操作简单,使用方便。计算机语音输入系统,使用口述代替键盘操作,实现向计算机输入文字,这对于办公自动化将带来革命性的变化。由于汉字输入的特殊性,汉语语音输入系统的重要性尤其突出。(3) 语音的反应速度特别快,可以达到毫秒量级。语音信息输入速度比打字机大约快3-4倍,比人工抄写文字大约快8-10倍。(4) 同时使用手、脚、耳、眼睛等器官,可以在进行其他工作的同时兼顾周围动作来输入信息。(5) 因在输入终端可使用麦克风、电话机等,所以非常经济,还可直接利用现有的电话网,并能遥控输入信息。因此语音识别系统具有重要的应用价值,它是人机通信的自然媒介。语音识别和语音合成相结合,可以构成“人-机通信系统”。由于语音识别技术的逐步成熟,随之产生的各类语

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档 > 租房合同

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号