语音合成的原理及分类

资源描述

《语音合成的原理及分类》由会员分享，可在线阅读，更多相关《语音合成的原理及分类（51页珍藏版）》请在金锄头文库上搜索。

1、9/12/2024数字语音处理及MATLAB仿真张雪英编著1第九章第九章语音合成语音合成 9.1 概述概述19.2 语音合成的原理及分类语音合成的原理及分类9.3 共振峰合成法共振峰合成法39.4 线性预测参数合成法线性预测参数合成法49.5 基音同步叠加法基音同步叠加法59.6 文语转换系统文语转换系统629/12/2024数字语音处理及MATLAB仿真张雪英编著29.1 概述概述语语音音合合成成是是人人机机语语声声通通信信的的一一个个重重要要组组成成部部分分，解决让机器像人那样说话的问题。解决让机器像人那样说话的问题。最最早早的的合合成成器器是是1835年年由由 Kempelen

2、发发明明，经经Weston改改进进的的机机械械式式会会讲讲话话的的机机器器。而而最最早早的的电电子子式式语语音音合合成成器器也也是是1939年年Homer Dudley发发明明的的声声码码器器，它它不不是是简简单单的的模模拟拟人人的的生生理理过过程程，而而是是通通过过电子线路来实现基于语音产生的源电子线路来实现基于语音产生的源-滤波器理论。滤波器理论。9/12/2024数字语音处理及MATLAB仿真张雪英编著3 在在语语音音合合成成技技术术发发展展中中，早早期期研研究究主主要要是是采采用参数合成方法。用参数合成方法。 1990年年提提出出的的基基音音同同步步叠叠加加PSOLA方方法法，使使基

3、基于于时时域域波波形形拼拼接接方方法法合合成成的的语语音音音音色色和和自自然然度度大大大提高。大提高。我我国国的的汉汉语语语语音音合合成成研研究究从从80年年代代初初就就基基本本上上与与国国际际研研究究同同步步发发展展。大大致致也也经经历历了了共共振振峰峰合合成成、LPC合成到应用合成到应用PSOLA技术的过程。技术的过程。9/12/2024数字语音处理及MATLAB仿真张雪英编著49.2 语音合成的原理及分类语音合成的原理及分类 9.2.1 波形合成法波形合成法波波形形编编码码合合成成法法是是一一种种波波形形合合成成法法，类类似似于于语语音音编编码码中中的的波波形形编编解解码码方方法法

4、，该该方方法法直直接接把把要要合合成成的的语语音音的的发发音音波波形形进进行行存存储储或或者者进进行行波波形形编编码码压压缩缩后存储，合成重放时再解码组合输出。后存储，合成重放时再解码组合输出。特特点点：所所需需的的存存储储容容量量太太大大，词词汇汇量量不不能能很很大大；相相对对简简单单，通通常常只只能能合合成成有有限限词词汇汇的的语语音音段段。目目前前用于自动报时、报站和报警等。用于自动报时、报站和报警等。9/12/2024数字语音处理及MATLAB仿真张雪英编著5 另另一一种种波波形形合合成成法法是是波波形形编编辑辑合合成成，它它把把波波形形编编辑辑技技术术用用于于语语音音合合成成，通

5、通过过选选取取音音库库中中采采取取自自然然语语言言的的合合成成单单元元的的波波形形，对对这这些些波波形形进进行行编编辑辑拼拼接接后后输输出出。它它采采用用语语音音编编码码技技术术，存存储储适适当当的的语语音音基基元元，合合成成时时，经经解解码码、波波形形编编辑辑拼拼接接、平平滑滑处处理理等等输出所需的短语、语句或段落。输出所需的短语、语句或段落。 9/12/2024数字语音处理及MATLAB仿真张雪英编著6 参数合成法参数合成法参数合成法也称为分析合成法。参数合成法也称为分析合成法。参参数数合合成成法法有有：发发音音器器官官参参数数合合成成和和声声道道模模型型参数合成。参数合成。发音器

6、官参数合成法：发音器官参数合成法：是是对对人人的的发发音音过过程程直直接接进进行行模模拟拟。它它定定义义了了唇唇、舌舌、声声带带的的相相关关参参数数，如如唇唇开开口口度度、舌舌高高度度、舌舌位位置置、声声带带张张力力等等，由由发发音音参参数数估估计计声声道道截截面面积积函函数数，进而计算声波。进而计算声波。缺点：合成语音的质量不理想。缺点：合成语音的质量不理想。9/12/2024数字语音处理及MATLAB仿真张雪英编著7 参参数数合合成成方方法法的的优优点点：音音库库一一般般较较小小，并并且且整整个个系系统统能能适适应应的的韵韵律律特特征征的的范范围围较较宽宽，这这类类合合成成器器比特率

7、低，音质适中。比特率低，音质适中。缺缺点点：算算法法复复杂杂，参参数数多多，并并且且在在压压缩缩比比较较大大时时，信信息息丢丢失失亦亦大大，合合成成出出的的语语音音总总是是不不够够自自然然、清晰。清晰。为为了了改改善善音音质质，近近几几年年发发展展了了混混合合编编码码技技术术，以改善激励信号的质量。以改善激励信号的质量。9/12/2024数字语音处理及MATLAB仿真张雪英编著89.2.3 规则合成法规则合成法规规则则合合成成方方法法：一一种种高高级级的的合合成成方方法法，通通过过语语音音学学规规则则产产生生语语音音，可可以以合合成成无无限限词词汇汇的的语语句句。合合成成的的词词汇汇表

8、表不不是是事事先先确确定定，系系统统中中存存储储的的是是最最小小的的语语音音单单位位的的声声学学参参数数，以以及及由由音音素素组组成成音音节节、由由音音节节组组成成词词、由由词词组组成成句句子子和和控控制制音音调调、轻轻重重音音等等韵律的各种规则。韵律的各种规则。算算法法中中，用用于于波波形形拼拼接接和和韵韵律律控控制制的的较较有有代代表性的算法是基音同步叠加表性的算法是基音同步叠加PSOLA技术。技术。9/12/2024数字语音处理及MATLAB仿真张雪英编著99.2.3 规则合成法规则合成法基音同步叠加基音同步叠加PSOLA技术技术主要特点：主要特点：在在语语音音波波形形片片断断拼

9、拼接接之之前前，首首先先根根据据语语义义，用用PSOLA算算法法对对拼拼接接单单元元的的韵韵律律特特征征进进行行调调整整，使使合合成成波波形形既既保保持持了了原原始始语语音音基基元元的的主主要要音音段段特特征征，又又使使拼拼接接单单元元的的韵韵律律特特征征符符合合语语义义，从从而而获获得得很很高高的的可懂度和自然度。可懂度和自然度。9/12/2024数字语音处理及MATLAB仿真张雪英编著10项目项目波形合成方式波形合成方式参数合成方式参数合成方式按规则合成方式按规则合成方式语音语音质量质量可懂度可懂度高高高高中中自然度自然度高高中中低低词汇量词汇量小（小（500字以下）字以下）大（数千字）

10、大（数千字）无限无限合成方法合成方法PCM,ADPCMLPC,LSP,共振峰共振峰LPC,LSP共振峰共振峰数码率数码率9.664kbit/s 2.49.6 kbit/s5075 kbit/s1兆比特可合成兆比特可合成的语音长度的语音长度15秒秒100秒秒100秒秒7分分无限无限合成基元合成基元音节、词组、句音节、词组、句子子音节、词组、句子音节、词组、句子音素、双音素、音音素、双音素、音节节装置装置简单简单比较复杂比较复杂复杂复杂硬件主体硬件主体存储器存储器存储器和处理器存储器和处理器处理器处理器表表9.1 三种语音合成方式的比较三种语音合成方式的比较9/12/2024数字语音处理及MATL

11、AB仿真张雪英编著119.3 共振峰合成法共振峰合成法共共振振峰峰合合成成理理论论中中声声道道参参数数、声声道道谐谐振振特特性性一直是研究的重点。一直是研究的重点。共共振振峰峰合合成成模模型型是是把把声声道道视视为为一一个个谐谐振振腔腔，利利用用腔腔体体的的谐谐振振特特性性，如如共共振振峰峰频频率率及及带带宽宽，以以此此为为参参数数构构成成一一个个共共振振峰峰滤滤波波器器。因因为为音音色色各各异异的的语语音音有有不不同同的的共共振振峰峰模模式式，以以每每个个共共振振峰峰频频率率及其宽带为参数，可以构成一个共振峰滤波器。及其宽带为参数，可以构成一个共振峰滤波器。 9/12/2024数字语音

12、处理及MATLAB仿真张雪英编著129.3 共振峰合成法共振峰合成法共振峰语音合成器的构成原理：共振峰语音合成器的构成原理：将多个共振峰滤波器组合起来模拟声道的传将多个共振峰滤波器组合起来模拟声道的传输特性，对激励声源发生的信号进行调制，经过输特性，对激励声源发生的信号进行调制，经过辐射得到合成语音。辐射得到合成语音。基于共振峰的理论有三种实用模型。基于共振峰的理论有三种实用模型。9/12/2024数字语音处理及MATLAB仿真张雪英编著139.3.1 级联型共振峰模型级联型共振峰模型在在该该模模型型中中，声声道道被被认认为为是是一一组组串串联联的的二二阶阶谐谐振振器器，共共振振峰

13、峰滤滤波波器器首首尾尾相相接接，其其传传递递函函数数为为各各个个共共振峰的传递函数相乘的结果。振峰的传递函数相乘的结果。9/12/2024数字语音处理及MATLAB仿真张雪英编著14激励源激励源V1V2- V5辐射模型辐射模型语音语音G一个五个极点的共振峰级联模型如下一个五个极点的共振峰级联模型如下图图9.2 共振峰级联模型共振峰级联模型五个极点的共振峰级联模型传递函数为：五个极点的共振峰级联模型传递函数为：即：即：式中，式中，G为增益因子。为增益因子。9/12/2024数字语音处理及MATLAB仿真张雪英编著159.3.2 并联型共振峰模型并联型共振峰模型在在并并联联型型模模型型中中

14、，输输入入信信号号先先分分别别进进行行幅幅度度调调节节，再再加加到到每每一一个个共共振振峰峰滤滤波波器器上上，然然后后将将各各路的输出叠加起来。路的输出叠加起来。其传递函数为其传递函数为:9/12/2024数字语音处理及MATLAB仿真张雪英编著16 上式可分解成以下部分分式之和：上式可分解成以下部分分式之和：其中其中Al为各路的增益因子。为各路的增益因子。9/12/2024数字语音处理及MATLAB仿真张雪英编著17下图就是一个下图就是一个M=5的并联型共振峰模型。的并联型共振峰模型。激励源激励源 +辐射模型辐射模型语音语音图图9.3 并联型共振峰模型并联型共振峰模型9/12/2024

15、数字语音处理及MATLAB仿真张雪英编著189.3.3 混合型共振峰模型混合型共振峰模型比比较较以以上上两两种种模模型型，对对于于大大多多数数的的元元音音，级级联联型型合合乎乎语语音音产产生生的的声声学学理理论论，并并且且无无需需为为每每一一个个滤滤波波器器分分设设幅幅度度调调节节；而而对对于于大大多多数数清清擦擦音音和和塞塞音音，并并联联型型则则比比较较合合适适，但但是是其其幅幅度度调调节节很很复复杂杂。于于是是考考虑虑将将两两者者结结合合在在一一起起，提提出出了了混混和和型型共振峰模型。共振峰模型。9/12/2024数字语音处理及MATLAB仿真张雪英编著19混和型共振峰模型如下图所

16、示：混和型共振峰模型如下图所示：图图9.4 混和型共振峰模型混和型共振峰模型9/12/2024数字语音处理及MATLAB仿真张雪英编著20 对于共振峰合成器的激励，简单地将其分为浊对于共振峰合成器的激励，简单地将其分为浊音和清音两种类型是有缺陷的，为了得到高质量的音和清音两种类型是有缺陷的，为了得到高质量的合成语音，激励源应具备多种选择，以适应不同的合成语音，激励源应具备多种选择，以适应不同的发音情况。发音情况。混和型共振峰模型中激励源有三种类型：合成混和型共振峰模型中激励源有三种类型：合成浊音语音时用周期冲激序列；合成清音语音时用伪浊音语音时用周期冲激序列；合成清音语音时用伪随机噪声；合

17、成浊擦音语音时用周期冲激调制的噪随机噪声；合成浊擦音语音时用周期冲激调制的噪声。声。 9/12/2024数字语音处理及MATLAB仿真张雪英编著21 共振峰合成技术弱点共振峰合成技术弱点：（1）由由于于它它是是建建立立在在对对声声道道的的模模拟拟上上，因因此此，声声道道模型的不精确势必会影响其合成质量。模型的不精确势必会影响其合成质量。（2 2）实实际际工工作作中中共共振振峰峰模模型型并并不不能能表表征征影影响响语语音音自自然然度度的的其其他他许许多多细细微微的的语语音音成成分分，从从而而影影响响了了合合成成语音的自然度。语音的自然度。（3 3）共共振振峰峰合合成成器器控控制制十十分分

18、复复杂杂，实实现现起起来来十十分分困困难。难。 9/12/2024数字语音处理及MATLAB仿真张雪英编著229.4 线性预测参数合成法线性预测参数合成法是是一一种种“源源滤滤波波器器”模模型型，由由白白噪噪声声序序列列和和周周期期脉脉冲冲序序列列构构成成的的激激励励信信号号，经经过过选选通通、放放大大并并通通过时变数字滤波器，就可以再获得原语音信号。过时变数字滤波器，就可以再获得原语音信号。图图9.5 LPC语音合成器的框图语音合成器的框图9/12/2024数字语音处理及MATLAB仿真张雪英编著23 线线性性预预测测合合成成的的形形式式有有两两种种：一一种种是是直直接接用用预预测测器

19、器系系数数构构成成的的递递归归型型合合成成滤滤波波器器，用用这这种种方方法法定定期期地地改改变变激激励励参参数数u(n)和和预预测测系系数数，就就能能合合成成出出语语音。它合成的语音样本由下式决定音。它合成的语音样本由下式决定: 其其中中：ai为为预预测测系系数数；G为为模模型型增增益益；u(n)为为激激励励；合成样本为合成样本为s(n)；p为预测器阶数。为预测器阶数。9/12/2024数字语音处理及MATLAB仿真张雪英编著24图图9.6 直接用预测器系数直接用预测器系数ai构成的合成滤波器构成的合成滤波器 9/12/2024数字语音处理及MATLAB仿真张雪英编著25 另另一一种种合合

20、成成的的形形式式是是采采用用反反射射系系数数构构成成的的格格型型合成滤波器。它的合成语音样本由下式决定合成滤波器。它的合成语音样本由下式决定: 其中：其中：G为模型增益；为模型增益；u(n)为激励；为激励；ki为反射系数；为反射系数； bi(n)为后向预测误差；为后向预测误差；p为预测器阶数。为预测器阶数。9/12/2024数字语音处理及MATLAB仿真张雪英编著26 LPC语音合成和共振峰语音合成比较：语音合成和共振峰语音合成比较：（1）LPC语语音音合合成成有有比比较较简简单单和和完完全全自自动动的的分分析析步步骤骤，合合成成器器结结构构也也比比较较简简单单，采采用用格格形形滤滤波波器

21、器时时，量量化化特特性性和和稳稳定定性性都都比比较较好好，硬硬件件实实现现容容易易；而而共共振振峰峰合合成成需需要要较较多多的的参参数数调调整整，合合成成器器结结构构相相对对讲讲要复杂些。要复杂些。（2）共共振振峰峰合合成成原原理理和和实实际际发发声声原原理理联联系系紧紧密密，它它的的模模型型控控制制参参数数对对合合成成语语音音谱谱特特性性的的影影响响比比较较直直观观。LPC合成中，控制合成中，控制LPC系数的变化轨迹十分有限。系数的变化轨迹十分有限。9/12/2024数字语音处理及MATLAB仿真张雪英编著27 （3）共共振振峰峰语语音音合合成成比比较较灵灵活活，允允许许简简单单地地变变

22、换换以以模模仿仿不不同同人人的的发发音音，通通过过共共振振峰峰频频率率的的移移动动，容容易易改改变变语语声声中中和和讲讲话话人人特特征征有有关关的的部部分分；LPC合合成成较较困困难难，只只有有将将LPC的的反反射射系系数数转转变变成成极极点点的的位位置置，才有可能作类似的修正。才有可能作类似的修正。（4）线线性性预预测测方方法法对对谱谱包包络络谷谷点点的的模模型型要要比比峰峰点点差差得得多多，因因此此共共振振峰峰带带宽宽的的估估计计一一般般是是不不合合适适的的；共共振振峰峰合合成成方方法法中中，共共振振峰峰的的带带宽宽还还可可以以从从离离散散傅傅里里叶变换谱来估计。叶变换谱来估计。9/12

23、/2024数字语音处理及MATLAB仿真张雪英编著28（5）标标准准LPC的的全全极极点点模模型型，对对具具有有零零点点谱谱特特性性的的那那些些音音，特特别别是是鼻鼻音音，效效果果比比较较差差；共共振振峰峰合合成成方方法法则则可可以以采采用用反反谐谐振振器器来来直直接接模模拟拟鼻鼻音音中中最最重重要要的的频谱零点，使得合成语音音质得以提高。频谱零点，使得合成语音音质得以提高。（6）从总体上说，选择）从总体上说，选择LPC语音合成还是共振峰合语音合成还是共振峰合成，基于二个因素的折衷；成，基于二个因素的折衷；LPC合成具有简单，可合成具有简单，可自动进行系数分析的优点；而比较复杂的共振峰合自动

24、进行系数分析的优点；而比较复杂的共振峰合成可望产生较高质量的合成语音。成可望产生较高质量的合成语音。9/12/2024数字语音处理及MATLAB仿真张雪英编著299.5 基音同步叠加法基音同步叠加法基基音音同同步步叠叠加加PSOLA算算法法核核心心思思想想：直直接接对对存存储储于于音音库库中中的的语语音音运运用用PSOLA算算法法进进行行拼拼接接，从从而整合成完整的语音。而整合成完整的语音。该该系系统统首首先先要要在在大大量量语语音音库库中中，选选择择最最合合适适的的语语音音单单元元用用于于拼拼接接，并并且且在在选选择择语语音音单单元元的的过过程程中中往往往往采采用用多多种种复复杂杂的的

25、技技术术，最最后后在在拼拼接接时时，使使用用PSOLA算算法法，根根据据上上下下文文的的要要求求，对对其其合合成成语语音音的的韵律特征进行修改。韵律特征进行修改。9/12/2024数字语音处理及MATLAB仿真张雪英编著30 由由于于韵韵律律修修改改所所针针对对的的侧侧面面不不同同，PSOLA算算法法的实现目前有的实现目前有3种方式。分别为：种方式。分别为：时域基音同步叠加时域基音同步叠加TD-PSOLA 线性预测基音同步叠加线性预测基音同步叠加LPC-PSOLA 频域基音同步叠加频域基音同步叠加FD-PSOLA 其其中中TD-PSOLA算算法法计计算算效效率率较较高高，已已被被广广泛泛应

26、应用用，是是一一种种经经典典算算法法，这这里里只只介介绍绍TD-PSOLA算算法法原原理。理。9/12/2024数字语音处理及MATLAB仿真张雪英编著31 9.5.1 基音同步叠加基音同步叠加PSOLA算法原理算法原理信号信号x(n)的短时傅里叶变换为：的短时傅里叶变换为：其中其中w(n)是长度为是长度为N的窗序列，的窗序列，Z表示全体整数集合。表示全体整数集合。是是变变量量n和和的的二二维维时时频频函函数数，对对于于n的的每每个个取取值值都都对对应应有有一一个个连连续续的的频频谱谱函函数数，显显然然存存在在较较大大的的信信息息冗冗余余，所所以以可可以以在在时时域域每每隔隔若若干干个

27、个（例例如如R个）样本取一个频谱函数来重构原信号个）样本取一个频谱函数来重构原信号x(n)。9/12/2024数字语音处理及MATLAB仿真张雪英编著32令：令：其傅里叶逆变换为：其傅里叶逆变换为：然后将然后将叠接相加便可得到：叠接相加便可得到：通常选通常选w(n)是对称的窗函数，所以有是对称的窗函数，所以有w(rR-n)=w(n-rR) 9/12/2024数字语音处理及MATLAB仿真张雪英编著33 可可以以证证明明，对对于于汉汉明明窗窗来来说说，当当时时，无无论论m为为何值都有：何值都有：所以所以其其中中为为w(n)的的傅傅里里叶叶变变换换。上上式式说说明明，用用叠叠接接相相

28、加加法法重重构构的的信信号号y(n)与与原原信信号号x(n)只只相相差差一一个个常常数数因子。因子。9/12/2024数字语音处理及MATLAB仿真张雪英编著34 这这里里采采用用原原始始信信号号谱谱与与合合成成信信号号谱谱均均方方误误差差最最小小的的叠叠接接相相加加合合成成公公式式。定定义义两两信信号号x(n)和和y(n)之之间间谱谱距离测度：距离测度：上式可改写为：上式可改写为： (9-14)9/12/2024数字语音处理及MATLAB仿真张雪英编著35 要求合成信号要求合成信号y(n)满足谱距离最小，可以令：满足谱距离最小，可以令：解得：解得：窗窗函函数数w1(n)和和w2(n

29、)可可以以是是两两种种不不同同的的窗窗函函数数，长长度度也也可可以以不不相相等等。上上式式就就是是在在谱谱均均方方误误差差最最小小意意义义下下的的时域基音同步叠接相加合成公式。时域基音同步叠接相加合成公式。9/12/2024数字语音处理及MATLAB仿真张雪英编著36 实际合成时实际合成时w1(n)和和w2(n)可以用完全相同的窗，可以用完全相同的窗，分母可视为常数，而且可以加一个短时幅度因子分母可视为常数，而且可以加一个短时幅度因子来调整短时能量，即：来调整短时能量，即：基音同步叠接相加法优点：基音同步叠接相加法优点：良好的韵律调整能力的；良好的韵律调整能力的；缺缺点点：基基音音频

30、频率率修修改改过过大大时时可可能能出出现现严严重重的的谱谱包包络失真。络失真。9/12/2024数字语音处理及MATLAB仿真张雪英编著379.5.2 基音同步叠加基音同步叠加PSOLA算法实现步骤算法实现步骤概概括括起起来来说说，用用PSOLA算算法法实实现现语语音音合合成成时时主主要要有有三三个个步步骤骤。分分别别为为基基音音同同步步分分析析、基基音音同同步步修修改和基音同步合成。下面介绍这三个步骤。改和基音同步合成。下面介绍这三个步骤。 9/12/2024数字语音处理及MATLAB仿真张雪英编著38 1.基音同步分析基音同步分析同同步步标标记记是是与与合合成成单单元元浊浊音音段段

31、的的基基音音保保持持同同步步的的一一系系列列位位置置点点，用用它它们们来来准准确确反反映映各各基基音音周周期期的的起起始始位位置置。同同步步分分析析的的功功能能主主要要是是对对语语音音合合成成单单元元进进行行同同步步标标记记设设置置。PSOLA技技术术中中，短短时时信信号号的的截截取取和和叠叠加加，时时间间长长度度的的选选择择，均均是是依依据据同同步步标标记记进进行行的的。对对于于浊浊音音段段有有基基音音周周期期，而而清清音音段段信信号号则则属于白噪声，所以这两种类型需要区别对待。属于白噪声，所以这两种类型需要区别对待。9/12/2024数字语音处理及MATLAB仿真张雪英编著39 2. 基

32、音同步修改基音同步修改同同步步修修改改通通过过对对合合成成单单元元同同步步标标记记的的插插入入、删删除除来来改改变变合合成成语语音音的的时时长长；通通过过对对合合成成单单元元标标记记间间隔的增加、减小来改变合成语音的基频等。隔的增加、减小来改变合成语音的基频等。若若短短时时分分析析信信号号为为x(ta(s),n)，短短时时合合成成信信号号为为x(ts(s),n)，则有：，则有：式中式中ta(s)为分析基音标记，为分析基音标记，ts(s)为合成基音标记。为合成基音标记。 9/12/2024数字语音处理及MATLAB仿真张雪英编著40 3. 基音同步合成基音同步合成基基音音同同步步合合成成

33、是是利利用用短短时时合合成成信信号号进进行行叠叠加加合合成成。如如果果合合成成信信号号仅仅仅仅在在时时长长上上有有变变化化，则则增增加加或或减减少少相相应应的的短短时时合合成成信信号号；如如果果是是基基频频上上有有变变化化，则则首首先先将将短短时时合合成成信信号号变变换换成成符符合合要要求求的的短短时时合合成成信号再进行合成。信号再进行合成。 9/12/2024数字语音处理及MATLAB仿真张雪英编著41图图9.7 时域基频同步合成语音时域基频同步合成语音a) 语音基频被降低语音基频被降低 b) 语音被延长但基频保持不变语音被延长但基频保持不变9/12/2024数字语音处理及MATLAB仿真

34、张雪英编著429.6 文语转换系统文语转换系统 9.6.1 文文语语转转换换系系统统的的组组成成在在文文语语转转换换系系统统中中，必必须须事事先先对对文文本本进进行行分分析析，根根据据上上下下文文的的关关系系来来确确定定每每个个字字发发音音的的声声调调应应如如何何变变化化，然然后后用用这这些些声声调调变变化化参参数数去去控控制制语语音音的的合成。合成。9/12/2024数字语音处理及MATLAB仿真张雪英编著43图图9.8 TTS系统基本框图系统基本框图文本分析、韵律控制和语音合成这三个模块是文本分析、韵律控制和语音合成这三个模块是文语转换系统的三个核心部分。其结构如下图所示：文语转换

35、系统的三个核心部分。其结构如下图所示：9.6.1 文语转换系统的组成文语转换系统的组成9/12/2024数字语音处理及MATLAB仿真张雪英编著44 1.文本分析文本分析工作过程包括：工作过程包括：将将输输入入的的文文本本规规范范化化，并并处处理理用用户户可可能能的的拼拼写写错误，将出现的不规范或无法发音的字符过滤掉；错误，将出现的不规范或无法发音的字符过滤掉；分分析析文文本本中中的的词词或或短短语语的的边边界界，确确定定文文字字的的读读音音，同同时时分分析析文文本本中中出出现现的的数数字字、姓姓氏氏、特特殊殊字字符符以及各种多音字的读音方式；以及各种多音字的读音方式；确确定定发发音

36、音时时语语气气的的变变换换及及不不同同音音的的轻轻重重方方式式。最最终终，将将输输入入的的文文字字转转换换成成计计算算机机能能够够处处理理的的内内部部参数，便于后续模块进一步处理并生成相应的信息。参数，便于后续模块进一步处理并生成相应的信息。 9/12/2024数字语音处理及MATLAB仿真张雪英编著45 2.韵律控制韵律控制任任何何人人说说话话都都有有韵韵律律特特征征，有有不不同同的的声声调调、语语气气、停停顿顿方方式式，发发音音长长短短也也各各不不相相同同，这这些些都都属属于于韵韵律律特特征征。而而韵韵律律参参数数则则包包括括了了能能影影响响这这些些特特征征的的声声学学参参数数，如如：

37、基基频频、音音长长、音音强强等等。最最终终系系统统能能够够用用来来进进行行语语音音信信号号合合成成的的具具体体韵韵律律参参数数，还还要要靠韵律控制模块。靠韵律控制模块。 3.语音合成语音合成文文语语转转换换系系统统的的合合成成语语音音模模块块一一般般采采用用波波形形拼拼接接来来合合成成语语音音的的方方法法，其其中中最最具具代代表表性性的的是是前前面面介绍过的基音同步叠加法介绍过的基音同步叠加法PSOLA。9/12/2024数字语音处理及MATLAB仿真张雪英编著469.6.2 汉语按规则合成汉语按规则合成通通过过语语音音学学规规则则产产生生语语音音，对对于于不不同同的的语语种种，其其规规

38、则则是是完完全全不不同同的的，这这里里仅仅讨讨论论文文语语转转换换层层次次上上的汉语按规则合成中有关韵律规则的几个基本问题。的汉语按规则合成中有关韵律规则的几个基本问题。 9/12/2024数字语音处理及MATLAB仿真张雪英编著47 1.重音规则重音规则汉汉语语的的重重音音，是是指指说说话话或或朗朗读读时时读读的的比比较较重重的音节或词语。的音节或词语。汉语重音分为：词重音和句重音两大类。汉语重音分为：词重音和句重音两大类。词重音：指词的某个音节可分为重轻等级。词重音：指词的某个音节可分为重轻等级。音音长长特特征征是是区区分分这这个个等等级级的的主主要要标标志志，轻轻声声的的音音长

39、长较较短短。另另外外一一个个重重要要的的区区分分特特征征是是声声调调域域，轻轻声声的的声声调调域域缩缩小小，这这就就使使轻轻声声字字所所需需的的能能量量减减少少，但但强强度度并并不不一一定定减减弱弱。汉汉语语重重音音的的声声学学特特征征表表现现在在音域加宽、音程加大，气流加强。音域加宽、音程加大，气流加强。9/12/2024数字语音处理及MATLAB仿真张雪英编著48 2.转接与音渡规则转接与音渡规则转转接接与与音音渡渡是是音音素素序序列列转转变变成成语语音音流流时时的的动态变化规律。动态变化规律。在在汉汉语语发发音音中中，存存在在两两种种基基本本的的过过渡渡，即即辅辅音音与与元元音音组

40、组合合和和元元音音与与元元音音组组合合。前前者者出出现现在在声声母母和和韵韵母母的的拼拼接接过过程程中中，称称为为“转转接接”；后后者者出出现在复合韵母内部，称为现在复合韵母内部，称为“音渡音渡”。 9/12/2024数字语音处理及MATLAB仿真张雪英编著49 转转接接是是指指前前一一个个辅辅音音对对其其后后元元音音共共振振峰峰的的影影响响。同同一一元元音音的的共共振振峰峰特特性性受受不不同同辅辅音音的的影影响响会会有有很很大大的的变变化化，表表现现出出来来的的转转接接现现象象不不同同；反反之之，同同一一辅辅音音对对不不同同元元音音的的影影响响也也是是不不同同的的。共共振振峰峰的转接现象比

41、较复杂，至今尚没找到普遍的规律。的转接现象比较复杂，至今尚没找到普遍的规律。 9/12/2024数字语音处理及MATLAB仿真张雪英编著50 3.声调与变调规则声调与变调规则汉汉语语是是一一种种“声声调调语语音音”，在在用用汉汉语语相相互互交交谈谈中中，人人们们不不但但凭凭不不同同的的声声母母、韵韵母母（或或元元音音，辅辅音音）来来辨辨别别字字和和词词的的意意义义，还还需需要要从从不不同同的的声声调调来来区别它们，这就是区别它们，这就是“声调语音声调语音”的特点。的特点。汉汉语语的的声声调调具具有有辨辨义义的的功功能能，它它和和辅辅音音、元元音音在语音的区别特征上同样重要。在语音的区别特

42、征上同样重要。 9/12/2024数字语音处理及MATLAB仿真张雪英编著51 4.音长问题音长问题音音长长也也是是语语音音的的重重要要特特征征之之一一，对对语语音音的的可可懂懂度度、自自然然度度都都有有一一定定的的影影响响。汉汉语语中中音音长长主主要要体体现现在在韵韵母母的的调调型型段段长长度度上上，调调长长和和调调型型是是密密切切相相关关的的，通通常常认认为为，上上声声音音节节最最长长，阴阴平平、阳阳平平次之，去声最短。次之，去声最短。除除音音长长外外，音音节节之之间间的的间间隙隙也也对对合合成成语语音音效效果果有有一一定定的的影影响响，适适当当的的间间隙隙会会使使语语言言听听起起来来更更为生动。为生动。

展开阅读全文

语音合成的原理及分类

最新文档