中文语音合成系统中的韵律实现

资源描述

《中文语音合成系统中的韵律实现》由会员分享，可在线阅读，更多相关《中文语音合成系统中的韵律实现（9页珍藏版）》请在金锄头文库上搜索。

1、中文语音合成系统中的韵律实现郭庆，片江伸之木，张洁，于浩，岩见田均富士通研究开发中心有限公司，北京1 0 0 0 1 6 一富士通研究所，明石，日本) E m a i l ：g u o q i n g c n f u j i t s u C O a l 摘要：本文中，对富士通中文语音合成系统尤其是韵律实现进行了描述。该系统是一个以音节为摹本合成单元，在韵律参数预测即音长和基频的指导下，从音库中搜寻全局最优的合成单元然后采用P S O L A 算法进彳亍被形调整的拼接合成系统从提高台成语音韵律的角度出发本文围绕音库建设、韵律结构分析，音长预测、基频预测等方面对该系统进行了详细的描述最后

2、给出了韵律评测和系统评测的结果关键宇；韵律词组词；音长预测：基频预铡：决策树； 1 引言语音合成系统的目的是合成高可懂度、高自然度的语音。经过近十几年的研究，现阶段的语音台成系统大多采用基于大规模语音数据库的拼接合成技术，合成的语音质量已经达到了实用的地步。其中可懂度已经能够满足应用的实际需要，但是自然度还不够高，与人的自然语音仍旧有很大的差距。富士通中国研究开发中心自2 0 0 4 年初开始中文语音合成系统的研发。首先，我们确立了以音节为基本合成单元，在韵律参数( 音长和基频) 预测的指导下，从音库中搜寻全局最优的合成单元，然后采用P S O L A 算法进行波形调整的拼接合

3、成技术作为基本技术路线。经过两年多的研究开发，目前基本完成了富士通中文语音合成系统中各个模块的初步研发工作。并且，已经开始着手进行产品化方面的工作韵律是衡量一个语音合成系统中合成语音的自然度和可懂度的重要因素之一。研究人员发现，汉语的韵律是由一个分层次的韵律结构体系构成的 1 2 。在这些韵律单元的边界处，对应着语流中声学参数上的一些特性如：停顿、基频的变化或者是韵律边界处音节的时长变化等特性。对于一个语音合成系统来说。韵律结构能够为韵律参数预测模型提供极其重要的信息，从而预测出更精准的时长和基频参数，进而在合成语音中实现上述声学参数特性，使得合成语音的韵律更加自然。因此。从

4、提高合成语音韵律的角度出发，本文将围绕音库建设、韵律结构预测、音K 预测和基频预测等方面对富士通中文语音合成系统进行介绍。本文组织如下：第二节为合成单元选取和音库建设，其中介绍了合成单元的选取、音库文本的设计以及音库的标注；第三节是富士通合成系统韵律实现技术介绍，在本节中，首先对富士通合成系统从总体架构上进行了简单的介绍，然后围绕韵律方面的研究详细介绍了韵律词组词、音长预测、基频预测方面的研究工作：第四节介绍了系统研发期间进行的韵律评一5 2 6 测和系统评测并给出了相应的评测结果：最后。第五节对全文进行了总结。 2 合成单元选取和音库建设 2 1 台成单元的选取在富士通中文语音

5、合成系统中，采用带调音节作为基本合成单元同时。为了避免在采用P S O L A 算法对选定单元进行声学变换从而获得指定时长和基频的音节的时候可能带来的合成语音质量的严重下降，P S O L A 算法将对该音节的声母平韵母分别进行处理。另外在音长预测中我们采用声母和韵母( 带调) 作为基本单元。 2 2 音库文本设计音库文本设计对于构建一个高质量的语音合成系统来说是非常关键的。一般来说，音库文本设计要做到对于实际语音中大量存在的语音，语言学现象尽可能多的、有代表性的覆盖。在文献 3 4 中，贪心算法被用于句子抽取，即从一个人的文本语料中抽取指定数目的句子，使其覆盖尽可能多的音素上下

6、文和韵律上下文现象。我们采用1 9 9 8 年人民日报标注语料作为初始的文本语料。该语料库收录了1 9 9 8 仝年的人民日报，并且进行了分词和词性信息的标注，该语料广泛应用于自然语言处理领域的研究。为了降低在贪心算法中需要考察的向量空间的大小，我们对音素上下文和声调上下文分别进行了分类处理，其中的分类处理基本上d i M i nC h u 在文献 3 中采用的方法一致。不过，我们在此基础上进行了一些小的修改。首先，所有出现在1 9 9 8 年人民日报语料中的音节( 带调) 均被附加上了它们的音素上下文和声调上下文信息。在该语料中共有i ，5 5 0 个不同的带调音节。总的向量空

7、间的大小为： 1 5 5 0 ( 带调音节数目) 1 4 ( 左边音素上下文类别数目) 2 2 ( 右边音素上下文数目) 3 ( 左边声调上下文类别数目) X 3 ( 右边声调上下文类别数目) = 4 ，2 9 6 。6 0 0 。当然并不是所有的可能组合都能在真实文本中出现。实际上，在1 9 9 8 人民日报语料麸计2 2 ，5 9 6 4 0 5 个实例中，一共覆盖了5 5 1 ，0 4 7 个不同的向量。采用贪心算法，我们选取了1 8 ，9 8 5 个高频向量，从而覆盖全部出现实例的5 0 9 6 。另外一个限制是对于每个带调音节至少保留5 个实例，不足5 个的全部保留。这样，在选

8、取了2 。5 3 6 个句子后，全部1 8 ，9 8 5 个高频向量就全部被覆盖到了。这个句子集合，覆盖了5 K 高频词中的4 ，8 5 8 个，覆盖了1 0 K 高频词中的8 4 8 2 个。由于其中有些句子比较长，在对这些长句子进行人工断句后，最终得到3 ，2 7 7 个句子。另外，8 3 个句子被选取来覆盖1 1 9 个高频儿化音。最终，3 ，3 6 0 个句子( 大约2 0 0 K 个汉字) 和1 ，5 5 0 个孤立带调音节成为最终的录音文本。 2 3 音库标注我们采用H T K I 具包。以声母和韵母为基本单元，在对音库中的半音节边界进行初始自动切分的基础上由专门培训过后

9、的人员进行了手工的校对和调整。与此同时，对于各个音一5 2 7 节的基频参数也进行了手工的修正。之后，我们对整个音库进行了韵律结构和重音等级的标注。关于韵律结构，在许多研究报告中进行了不同韵律单元的划分。一般来说，在汉语语音中有以下三个主要的韵律单元：韵律词、韵律短语和语调短语。韵律词是发音紧凑、连贯的一组音节，在这些音节之间没有感知上的停顿。韵律短语可咀由一个或多个韵律词组成，在韵律短语之间有可感知的停顿。而语调短语是由一个或多个韵律短语组成，在语调短语之间有着比韵律短语之间更长的停顿。韵律结构标注的依据是听觉感知。语调短语通常由逗号等标点符号所标识。另外，语调短语往往伴随着

10、不完全的基频重置。关于重音等级，我们在音节层次定义了三级的重音等级，即重读、正常和轻声。下面是音库中一个句子的标注文本例子。“I ”、“ll ”、“”分别代表韵律短语、韵律短语和语调短语。一个音节如果被标注上“”。意味着该音节是一个重读音节：一个音节如果被标注上“_ L ”，意味着该音节是一个轻声音节。“ ”用于标注句尾。 8 月( b a ly v e 4 _ H ) tI 20 日( e r 4s h 2Hr 4 _ H ) tI 清晨( q i n g l c h e n 2 ) t ，一( y i l ) m 支( z h 1 ) q 满载( m a n 3z a i 4 _

11、 H ) vl | 锅碗瓢盆( g u o lHw a n 3p i a 0 2 _ H p e n 2 ) l 、lI 桌椅( z h u o lHy i 3 ) n 、lI 调料( t i a 0 2 1 i a 0 4 ) n 、Il 发电机( f a ld i a n 4 j i l _ H ) nIl 等( d e n 9 3 ) uI 家当( J i a ld a n 9 4 _ H ) n 的( d e 5 _ L ) uII 流动( 1 i u 2 d o n 9 4H ) v n | 支前( z h l q i a n 2 ) v n 车队( c h e l _ Hd u i

12、 4 ) nI 从( c o n 9 2 _ H ) p 郊州 ( z h e n 9 4z h o u 【一H ) n sl 出发( c h u lf a l ) v 了( 1 e 5L ) y 。 3 富士通合成系统韵律实现技术介绍图l 给出了富士通中文语青合成系统的总体框架图。它由三个主要的组成部分组成：文本分析、韵律模型和后端合成。文本分析模块内包括；文本归一化、数字特殊符号文字化、分词词性标注、注音、韵律结构预测、多音字处理以及变调处理等。韵律模型部分包括：音欧的预测和基频的预测。后端合成模块包括：单元选取、P S O L A 算法波形调整以及波形的拼接。本节中从韵律实现的

13、角度出发将就其中一些工作进行描述。它们是：韵律结构预测中的韵律词组词、音长预测、基频预测。 T e x t 一。I T e T e x t “。! P 。o d ylP a r a m e t e r s I s p e e d l 笆一删曲I一! 删“一i 5 ”怕5 fff f 2 呻嘣- 喇S p “ S w 曲d T d 眦- 响 I P S O L m l a w 州轴胛胃m a b 0 P O S h 口M 6 蛔口a _ 圈l 富士通中文语音音成系统总体框架圈一5 2 8 3 1 韵律词组词关于韵律结构。在许多研究报告中进行了不同韵律单元的划分。一般来说，在汉语语音中

14、有以下三个主要的韵律单元：韵律词、韵律短语和语调短语。韵律词是发音紧凑、连贯的一组音节，在这些音节之间没有感知上的停顿。韵律词是韵律节奏中最基本的单元，在韵律词的边界处有可感知的韵律边界。换句话说，在韵律词的内部不应该有可感知的韵律边界，而且听感上的停顿只能出现在两个韵律诃之问的边界处。因此一个好的韵律词组词对于改进合成语音的自然度有着极其重要的作用。许多研究表明韵律词不同于语言学中的词( 在语音合成系统中，语言学中的词是以词典的形式来体现的) 。原因之一在于，韵律词的形成不仅是基于词的意思同时它也是基于语音中韵律节奏的要求。一个韵律词可以由多个语言学中的词组成也可以是一个相对比

15、较长的语言学词的其中一部分。文献 5 】中的感知实验表明，一个语音合成系统如果采用韵律词作为基本合成单元相较于直接采用语言学词作为基本合成单元前者的合成语音具有更高的可懂度和自然度。近年来，关于汉语中韵律词边界的预测提出了很多的研究方法，如基于C A R T ( C l a s s i f i c a t i o nA n dR e g r e s s i o nT r e e ) 的方法、规则驱动的方法、基于统计的方法 6 和基于神经网络的方法等等。在这些研究工作中，词性( P O S ) 和词长信息被，“泛采用。 3 1 I 基于隔栅删除策略的韵律词组词韵律词是韵律结构层次中晟低

16、一级的单元，在韵律词内部任何的听感上的停顿将会导致合成语音可懂度和自然度下降。例如，在个中文语音合成系统中，“噌噌噌就爬E 了山顶”经过分词处理后结果为：“噌噌噌就爬上了山顶”。在这里，语言学词“就”、“爬”、“上”、“了”四个词均为单字词。在韵律结构中，这四个单字词应该被组在起，构成一个韵律词“就爬E 了”。如果它# J 在韵律词层次上是孤立的那么在合成语音中，“就爬上了”这部分听起来就非常地不自然。具体说来就是象在逐字逐字地发音，昕者可以在这部分语流中明显感知到令人非常不舒服的听感上的停顿。这是因为在韵律参数预测模型中无论是基频的预测还是音长的预测都对当前音节是处于韵律词边界还是普通的语言学词边界非常敏感。假设“就爬上了”被组为一个韵律词。那么该部分合成语音的基频包络听起来就会比较自然，因为

展开阅读全文