毕业设计论文基于共振峰合成法的语音信号合成

资源描述

《毕业设计论文基于共振峰合成法的语音信号合成》由会员分享，可在线阅读，更多相关《毕业设计论文基于共振峰合成法的语音信号合成（32页珍藏版）》请在金锄头文库上搜索。

1、江西师范大学2006届本科毕业生论文题目:基于共振峰合成法的语音信号合成Title: Synthesis of Speech Signal based on Formant Synthesis学校名称：江西师范大学院系名称：物理与通信电子学院学生姓名：学生学号：0 专业：通信工程指导老师) 声明本人郑重声明：所呈交的毕业设计（论文）是本人在指导教师指导下进行的研究工作及取得的研究成果。其中除加以标注和致谢的地方外，不包含其他人已经发表或撰写并以某种方式公开过的研究成果，也不包含为获得其他教育机构的学位或证书而作的材料。其他同志对本研究所做的任何贡献均已在文中作了明确的说明并表示谢意。本

2、毕业设计（论文）成果是本人在江西师范大学读书期间在指导教师指导下取得的，成果归江西师范大学所有。特此声明。声明人（毕业设计（论文）作者）学号：声明人（毕业设计（论文）作者）签名：签名日期：年月日目录摘要1ABSTRACT2引言31语音合成进展32共振峰合成42.1共振峰产生原理42.2激励模型52.3共振峰合成三种声道模型62.3.1级联型共振峰模型62.3.2并联型共振峰模型72.3.4混联型共振峰模型92.4辐射模型92.5语音信号综合数字模型103 MATLAB软件合成103.1软件概述103.2提取语音信号的共振峰参数113.2.1用频域分析提取参数113.3基于参数的共振峰合

3、成143.3.1固定共振峰不同发音状态的语音信号的合成153.3.2变化共振峰的不同状态语音信号的合成183.4基于参数修改的语音转换23总结26参考文献27致谢28摘要语音合成是（定义）,目前语音处理中研究最成熟(删除)、应用最广泛的技术。它可以用多种方法实现，其中共振峰合成法是一种基于规则的声源-声道模型合成法。它侧重于对声道谐振特性的模拟以及准确地提取共振峰参数。共振峰合成法的特点在于以共振峰为控制参数，要求在输出终端上模拟出实际语音的谱特征。本文主要内容大概(删除)分为三个部分：一,在理论分析的基础上，提取语音库里的两个不同性别的人发相同语音的共振峰参数；二,基于激励的LP模型,以

4、第一阶段提取出来的共振峰参数构成声道模型,合成五种不同发音状态的语音；三是完成男子向女子发音的转换,合成之后再对合成信号和原来信号的语谱图进行分析比较，不断地修正合成的各项参数，最后得到质量较高的合成语音。【关键词】共振峰合成、特征参数、MATLAB语音工具箱Abstract Speech synthesis is now one kind of advanced method which has been widely used in speech processing. It can be realized by various means, in which Formant Synth

5、esis is one mature approach featuring Source-filter Model synthesis based on principles. This synthesis focuses on the simulation of the characteristics of vocal formant and getting formant parameters precisely. The dissertation(paper)l comprises three main parts: the first one is the gain of forman

6、t parameters for speeches, which are from the speech-ware spoken by a man and a woman differently; the second part is to synthesize five different speech pronunciations, and then to use the formant parameters derived in the first phase as the formant excitation, while also these five different speec

7、h pronunciations as source excitation; the third part is to finish the conversion of a males voice to its corresponding females voice. So this paper will also try to analyze and compare the spectrum figure between the synthesized speech and the initial speech signal. And then it will modify every pa

8、rameter that is needed for the application of a high quality synthesis speech signal, compared with the initial input speech signal. Key words Formant Synthesis, characteristic parameters, MATLAB toolbox for speech synthesis引言语音是人类交流时使用最多、最自然、最基本同时也是最重要的信息载体。它的产生包括一系列的心理和生理反应。目前对语音信号的研究主要基于它的数字表示，

9、其基础是抽样定理。语音处理在现代社会中应用极为广泛，它的广泛应用表现在: 语 1、语音编码：最重要的一种应用，用低比特率获得尽可能高的合成质量音 2、语音识别：将语音转换成等价的书面信息，让计算机听懂人说话处 3、说话人识别：根据话音辨别说话人，提取说话人的特征理 4、语音理解：利用知识表达和应用人工智能技术进行语句识别和理解应 5、语音合成：让计算机说话，实现人机通信用 6、语音增强：对带噪语音进行处理，达到降低噪声影响的效果在高度信息化的今天，这些语音处理的一系列技术及其应用已经成为信息社会不可缺少的组成部分。而其中语音合成技术的研究相对要成熟一些，也是语音信号处理领域最有可能产

10、生突破并进而实现产业化的一项技术。目前国际国内对其研究主要着重在提高合成语音的自然度，丰富合成语音的表现力，降低语音合成技术的复杂度以及多语种文语合成等四方面。选择这个项目作为研究对象，具有一定的现实意义,这表现在:首先,能够加强对共振峰合成法的基本的理论分析的认识;其次,能够学习掌握MATLAB语音工具箱软件的应用以及进行再处理工作;最后,能够使自己在加强学习的同时，了解到当前国内外语音合成技术研究的最新成果并及时吸收1语音合成进展上个世纪，在人们的努力下，语音合成已经可以比较成熟的实现有限词汇的合成，但是大量词汇的语音合成，以及合成音质的改善还比较难。现阶段语音合成的最大进展是已经能够实

11、时地将任意文本转换成连续可懂的自然语句输出，相应技术通常称为文语合成或文语转换(TTS)。TTS使得数据通信和语音通信在终端一级实现交融，人们将有望在获取Internet信息时，使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。综观语言合成技术的研究已有二百多年的历史，但是真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。80年代以前，国际上语音合成的研究主要集中在按规则文语转换，早期的研究主要是采用参数合成方法。如Holmes并联共振峰合成器（1973）和Klatt串/并联共振峰合成器

12、（1980）。自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提出（1990），使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。国内的汉语语音合成研究起步较晚些，但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。70年代末和80年代初，我们语言所和中科院声学

13、所都初步研制出了各自的普通话语音合成系统。90年代初，基于数据驱动的语音合成技术出现，使得语音合成系统走向了实用。如目前国内有以语音合成为主的语音技术公司科大讯飞公司。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，但是毕竟已经在信息咨询如168声讯台、短讯播报等平台使用了。在国家863计划，国家自然科学基金委，国家攻关计划，中国科学院有关项目等支持下，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如中国科学院声学所的KX-PSOLA（1993）,联想佳音（1995）；清华大学的TH_SPEECH(1993)；中国科技大学的KDTALK（1995）等系统。这些

14、系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高的水平。2共振峰合成2.1共振峰产生原理共振就是当空腔作受迫振动，使激励频率等于腔的固有频率，那么空腔便以最大振幅作振荡。共振体的作用通常不是在一个固有频率上作用，可能有多个强度不同的共振频率。声道管的共振频率（谐振频率）称为共振峰频率，简称为共振峰。人在说话时，声道是一个分布的参数系统，是一个谐振腔。舌和唇的连续运动常常会改变声道的外形和尺寸，从而改变谐振频率。声道和鼻道均可看作是非均匀截面的声道管。共振峰的值与发生器官的确切位置有很大的关系，即与声道的大小和形状有关系，每种形状的声道都有一套

15、共振峰频率作为其特征。当声音沿着声道传播时，频谱形状会随声道改变。因为声门脉冲序列具有丰富的谐波成分，这些频率成分声道的共振频率之间相互作用的结果对语音质量影响很大。由于声道的大小随不同的讲话人不同，所以共振峰频率对判别不同的说话人来说非常重要。共振峰频率由低到高的排列依次为第一、二、三共振峰，一般来说，在浊音中可以辨认的共振峰有5个，前3个对区别不同说话者的语音来说至关重要。虽然就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素还是共振峰频率的高低.共振峰特性与发音机制有关.例如第一共振峰F1与舌位高低(即舌在嘴的上下)有关,这表现为舌位越高, F1越低；舌位越低，F1越高。第二共振峰F2与舌位前后的位置有密切关系；这表现为舌位越靠前，F2就越高；舌位越靠后，F2就越低。第三共振峰F3受舌尖活动影响较大，这表现在舌尖抬高卷起时，F3就明显下降。研究显示，不同人群的共振峰频率分布范围变化很大，如下表1所示:表1 不同人群的共振峰频率分布范围共振峰合成数字模型

展开阅读全文