基于MATLAB的语音倒谱分析

资源描述

《基于MATLAB的语音倒谱分析》由会员分享，可在线阅读，更多相关《基于MATLAB的语音倒谱分析（35页珍藏版）》请在金锄头文库上搜索。

1、海南大学毕业论文（设计）题目：基于MATLAB的语音倒谱分析学号：姓名年级学院：专业：指导教师：完成日期： 2012年6月摘要语言是人类最重要的交流工具，它自然方便、准确高效。随着社会的不断发展，各种各样的机器参与了人类的生产活动和社会活动，因此改善人与机器之间的关系，使人对机器的操纵更加便利就显得越来越重要。随着电子计算机和人工智能机器的广泛应用，人们发现，人和机器之间最好的通信方式是语言通信，而语音是语言的声学表现形式。要使机器听的懂人话，就要对语音信号进行处理。随着信息技术的不断发展，尤其是网络技术的日益普及和完善，语音信号处理技术正发挥着越来越重

2、要的作用。为了寻找具有良好性能的特征及提取重要参数以提高识别系统性能，各种科学的算法应运而生，倒谱法作为信号处理的重要的方法之一，能够得到比较好的识别性能。本文以MATLAB为平台，通过编程实现对语音信号的倒谱分析。首先，本文简要说明了倒谱与语音的相关理论原理，包括倒谱原理和语音的组成元素，为之后的进一步研究奠定理论基础。然后,对语音倒谱各个方面的应用进行了MATLAB编程，得到了语音基音检测和共振峰检测的实验仿真结果。关键词：语音信号；倒谱；MATLAB；基音检测；共振峰检测；AbstractLanguage is one of the most important communicatio

3、n tools, it is convenient and efficient. With the continuous development of the society, a variety of machines are used in the humans production and social activities, thus improving the relationship between man and machine makes the machine more convenient what becomes more and more important. With

4、 the wide application of electronic computers and artificial intelligence machine, it was discovered that language communication is the best means of communication between man and machine, while the voice is the acoustic manifestations of the language.To make the machine understands people, it is ne

5、cessary to process the speech signal. With the continuous development of IT, especially the growing popularity of network technology and improvement of the voice signal processing technology is playing an increasingly important role, in order to find a good performance characteristics and extract im

6、portant parameters to improve the performance of the recognition system, a variety of scientific algorithms have emerged, the cepstrum, as the signal processing one of the important methods, can get better recognition performance.MATLAB as a platform, can achieve cepstrum analysis of the speech sign

7、al by programming. First, the article briefly described the itheoretical principles of cepstrum and voice, including the the cepstrum principles and elements of voice,which laied the theoretical foundation for the further research . Then the speech cepstrum application in all aspects was programmed

8、in MATLAB, thus we got voice pitch detection , peak detection experiment simulation results by simulation.Keywords: speech signal; cepstrum; MATLAB; pitch detection; resonance peak detection;目录1绪论11.1目的及意义11.2 语音信号研究现状11.3主要研究内容32倒谱的基本原理52.1复倒谱和倒谱的定义52.2复倒谱的计算方法62.3复倒谱与倒谱的关系93语音信号的组成分析113.1语音的两个分量1

9、13.2语音类型134语音倒谱的应用及MATLAB仿真154.1倒谱的MATLAB实现154.2倒谱在同态信号处理系统的应用164.3倒谱在基音检测方面的应用174.4倒谱在共振峰检测方面的应用215总结25致谢26参考文献27附录A28附录B28附录C301绪论1.1目的及意义由于语言是人们在日常生活中的主要交流手段，因此语音信号处理在现代信息社会中占用重要地位。随着语音信号处理技术在实际生活中的应用的不断发展，语音信号处理技术已经越来越贴近人们的生活。目前，语音信号处理技术处于蓬勃发展的时期，不断有新的产品被研制开发，市场需求逐渐增加，具有良好的应用前景。语音信号处理虽然包括语音通信，语

10、音合成，语音识别等内容，但是其前提和基础是对语音信号进行分析。在语音信号处理中可以常用倒谱域来提取语音的基频和共振峰，用于语音识别。倒谱系数是一种表征语音特征非常有效的参数矢量, 它能将语音信号的声门激励信息及声道响应信息分离开来，也就是说倒谱具有解卷的特性,因此倒谱是说话人识别和语音识别中最常用的特征参数之一。由于倒谱在语音信号处理中的重要地位，倒谱的应用也越来越广泛。例如可应用于通信、建筑声学、地震分析、地质勘探和语音处理等领域。尤其在语音处理方面，应用复倒谱算法可制成同态预测声码器系统，用于高度保密的通信。1.2 语音信号研究现状声学是物理学的一个分支学科，而语言声学又是声学的一个分支学

11、科。它主要的研究方向是人的发声器官机理，发声器官的类比线路和数学模型，听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等) ，听觉器官的数学模型，语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等) ，语音的清晰度和可懂度等。当今通信和广播的发展非常迅速，而语言通信和语言广播仍然是最重要的部分，语言声学则是这些技术科学的基础。语言声学的发展和电子学、计算机科学有着非常密切的关系。在它发展的过程中，有过几次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现。因为有了电子管放大器,很微弱的声音也可以放大，而且可以定量测量。从而使电声学和语言声学的一些研究成果，扩

12、展到通信和广播部门。第二次飞跃应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展，人们发现:声音信号特别是语音信号，可以通过模数转换器(A /D)采样和量化，它们转换为数字信号后，能够送进计算机.这样就可以用数字计算方法，对语音信号进行处理和加工.。例如频谱分析可以用傅里叶变换或快速傅里叶变换( FFT)实现，数字滤波器可以用差分方程实现. 在这个基础上，逐渐形成了一门新学科语音信号处理。它的发展很快，在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。在信息科学中占有很重要的地位，其中语音识别的研究也开始了飞速的发展。语音识别的研究工作可以追溯到20世纪50年代AT&T贝

13、尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。随着应用领域的扩大，小词汇表、特定人、孤立词

14、等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续的语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个

15、很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper，Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice98。它带有一个32000词的基本词汇表，可以扩展到65000词，还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音。我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向

展开阅读全文