目 录第一章 绪论 11.1 源-目标说话人声音转换研究的背景和概况 11.2 国内外研究现状 21.3 本文的主要研究工作 4第二章 源-目标说话人声音转换的基本原理 72.1 语音信号的产生机理 72.2 说话人特征与语音模型及其参数表示 92.3 基于LPC的语音分析/合成模型 102.3.1 线性预测系数及线频谱参数的提取 102.3.2 基于听觉感知加权的特征参数表示 142.3.3 LPC分析/合成模型下的转换系统框架 152.4 源-目标说话人声音转换系统的组成框架 152.5 转换效果的评价方法 172.5.1 客观评价 172.5.2 主观评价 182.6 实验数据库描述 182.7 本章小结 19第三章 基于矢量量化的码本映射方法 203.1 矢量量化的基本原理 203.2 码本映射方法的原理及框图 213.3 影响谱转换效果的几个因素 233.3.1 初始码字的选择问题 243.3.2 源话者与目标话者码本尺寸大小的匹配实验 253.4 本章小结 27第四章 分类线性映射方法 284.1 关于分类算法的探讨 284.2 分类线性映射(CLT)方法的基本原理 294.2 实验结果及其讨论 314.2.1 初始聚类中心的选择实验 314.2.3 码本映射法和分类线性映射法的对比实验 334.2.4 分类算法的选取对谱转换效果的影响 344.3 本章小结 35第五章 分类线性加权映射方法 365.1 高斯混合模型(Gaussian Mixture Model)的基本原理 365.1.1 GMM的基本参数 365.1.2 GMM的训练算法(EM算法) 385.2 分类线性加权的映射(WCLT)方法 395.2.1 最小均方误差准则下的谱转换函数的获取 415.2.2 加权最小均方误差准则下的谱转换函数的获取 425.3 实验结果及其讨论 455.3.1 WCLT中转换效果和混合度的关系 455.3.2 不同的源/目标转换组合的对比实验 465.3.3 两种训练准则下的谱失真比较 475.3.4 训练数据集大小对转换精度的影响实验 485.4 本章小结 49第六章 部分音源特征的转换研究 516.1 基频及其轨迹的转换 516.1.1 基音周期的提取 516.1.2 均值线性变换模型 536.1.3 基于基元段特征的基频轨迹的转换 546.2 目标激励残差信号的产生 566.3 实验结果和分析 576.3.1 基频轨迹的转换 586.3.2 转换语音的主观评价 596.3.3 转换合成语音示例 616.4 本章小结 62第七章 总结与展望 63参考文献 66致谢 69攻读硕士学位期间发表或完成的学术论文 70 / 文档可自由编辑打印第一章 绪论1.1 源-目标说话人声音转换研究的背景和概况语音在日常通讯中占有非常重要的地位,它携带着大量有用信息,一般认为它至少包含语义信息、说话环境信息和说话人特征信息。
其中,说话人特征信息描述了与说话人身份相关的声音方面特征,而与具体内容信息和说话环境无关因此凭借语音信号中的说话人的个性特征,我们仅从、网络通讯、广播等中传播的声音就可辨别和确认出说话人的具体身份语音信号与信息处理研究领域中的自动说话人识别就是利用计算机从说话人的语音进行说话人身份识别的技术声音转换(Voice Conversion)是一种改变说话人声音特征的技术,将某个说话人的语音模式转换成与其特性不同的另一种语音模式,而保持语音中原有的具体内容信息(语义信息)和说话时的环境信息不变,例如男女声的转换[1]源-目标说话人声音转换则是指将源说话人的语音模式转换成某个指定的特定目标说话人的语音模式,即保持源说话人原有的语音信息内容不变,使转换后的语音具有目标说话人的声音特点[2]声音转换技术有着广泛的应用前景,首先它是对语音合成技术的丰富和延拓随着计算机技术的飞速发展,人机交互变得越来越重要,成为其中一个重要发展方向语音由于其便捷的特性,而倍受瞩目人机语音交互包括语音识别和语音合成两部分前者是让计算机听懂人说话,涉及到模式识别方面的知识;后者是让计算机说话,这主要是由文语合成系统(TTS)来完成。
传统的TTS系统中合成语音都是单一话者的语音,这就使得合成语音显得单调,缺乏个性,要想得到多样的发音则必须建立多套语音数据库声音转换技术则较容易实现多种音色的个性化发音,使传统的耗时庞大的语音数据库的采集得以简化为仅需采集一个说话人(源)的语音数据库,对于其他音色的声音,只需少量的训练语音,便可从源说话人的语音库通过声音转换技术获得,节约了大量工作量与存储空间,且使系统变得更加灵活[3]还有,未来的系统会在人们接收E-mail或短信息时自动将信件内容用模仿发信人的声音读出来扩展自然对话系统功能是这种应用的一种延伸特别是在娱乐和教育领域,产生多说话人特征的语音显示出很高的需求性,如戏剧、广播剧和电影里的角色配音中[4],声音转换技术的运用,可以将原演员的声音特征加入到本地化场景配音中,使之更具原汁原味声音转换技术的优越性也将反映在超低带宽的语音编码领域当语音编码系统设计的传输速率为2.4kbs或更低时,在传输过程中将不再保留说话人的语音特征[5],而只传输与说话内容相关的信号,使传输带宽得以高效利用声音转换技术则有可能在接收方重现解码语音,使其与传送人的说话人特征相匹配声音转换的另一个主要用途是用于说话人辨认技术。
声音调整是多方会话翻译系统的一个重要技术内容[5, 6]系统首先识别一方说话人的每一句话,然后用对方(另一方)语言翻译出来,再用本方说话人声音特征合成新的声音,这样使持不同语言的双方(多方)交流更为方便另外,声音转换技术还可用在安全系统中的访问控制[5]、语言障碍者的辅助发音系统[2]、语音识别过程中的预处理等方面[8, 9]从理论技术研究的角度来看,源-目标说话人声音转换技术涉及信号处理、人工智能、模式识别、声学等学科领域,是一个典型的交叉学科的产物,它和语音识别、编码合成有着非常密切的关系,例如语音特征提取、基于概率统计的说话人语音建模、说话人的自适应方法等研究成果可以直接运用于源-目标说话人声音转换技术上,而随着声音转换技术研究的深入,又势必将会对语音识别、编码合成等研究的发展产生促进作用九十年代以来,由于统计模型是对说话人的大量特征参数进行统计后找出规律并建立相关模型,因而鲁棒性很好,在识别、合成等方面表现出了优异的特性,是当今语音模型的最为流行、最获青睐的建模方法目前已有的研究结果表明,基于小样本的统计理论、核方法也同样是声音转换技术中的理论基础与未来发展方向1.2 国内外研究现状语音转换技术是近年来基于语音信号和信息处理研究领域的迅猛发展和大量研究成果的基础上发展起来的一个新兴、具有巨大潜力的研究方向。
对该技术而言,最重要的就是要改变源说话人的特性使其与日标说话人接近说话人声音转换的研究最早可以追溯到七十年代,但是它的研究工作近十几年才引起人们的注意很多研究者在这方面展开了比较深入的分析,到日前为比,大多数说话人声音转换的研究都将重点放在对语音短时谱和韵律参数的修改上面1971年,Atal和Hanauer[10]研究了用LPC声码器改变语音特性的可行性在20世纪80年代初期,S.Senef[11]通过估计频谱包络的方法,将语音信号解卷积,得到语音信号的激励,这一方法避免了提取基频的过程而可以实现对语音波形的基频和频谱包络进行操作,一定程度上实现了说话人声音转换在1984年和1991年,H.Kuwabara[12, 13]采用分析-合成方法来进行说话人声音转换,研究影响语音个人特性和语音质量的声学参数,他通过线性预测解卷积算法将语音信号分解为嗓音源信号和声道传输函数,通过求解声道传输函数的零点得到共振峰的位置信息,改变共振峰的位置和宽度,采用线性预测的残差信号作为激励来合成语音在1989年,Childers[14, 15]等人采用不同的激励源,对语音信号作线性频谱规整,检验了异性声音的转换效果。
前期的这些研究工作,主要是研究如何提取语音特征的参数,并对这些参数进行独立的转换,从而构造出新的合成语音1988年,Abe等人[16]提出了第一个比较成熟的说话人声音转换系统,该系统采用了矢量量化技术和码本映射的方法,用码本来表示不同说话人的频谱特征,然后用说话人的语音库进行训练,在不同的说话人之间建立谱包络、能最和基频之间的映射关系,利用码本映射对语音进行参数转换,最后用LPC合成器合成得到转换后语音其后Nakamura等人[17]运用模糊VQ方法对一般VQ做了改进,提高了转换性能,而Iwahashi等人[18]提出用频谱插值法增强了码本映射技术的鲁棒性1991年,Savic[19]提出了用多层神经网络代替了码本映射,来实现声音转换1992年Valbret等人使用基音同步叠加法(PSOLA)调整激励信号的韵律特征来改善语音频谱动态频率规整(DFW)变换后的声音转换性能[7]1996年,Rinscheid[20]使用时变滤波器和拓扑特征映射实现了声音的改变 Narendranath[21]和Watanabe[22]分别于1995年和2002年用BP和RBF等人工神经网络方法实现了语音共振峰特性的变换。
1995年,Mizuno等[34]用分段线性的转换方法较精确的实现了共振峰特性和频谱倾斜特性的转换1997年,Arslan等人[23]提出了一种基于音素码本映射思想的转换算法,在统一的系统框架内实现了线谱频(LSF)、基频、能量和时长等韵律的变换Turk[27]在此基础上提出了基于子带频谱的改进算法1999年,Arslan提出了STASC (Speaker Transformation Algorithm Using Segmental Codebooks)方法[24],相对于Abe等人的方法,这种方法采用了码本加权叠加的方法来得到目标说话人的特征参数,因此得到了更好的效果但由于采用码本加权叠加,最后得到的特征参数过于平滑,导致了转换后得到语音有“闷”的感觉近年来,基于语音特征的统计分布来实现声音转换的研究受到了更多重视GMM技术采用高斯混合模型(GMM)描述对准源-目标特征数据的联合概率分布,由给定源特征预测目标语音特征就变成了求一个线性回归函数的问题[3, 6, 25]由于GMM频谱转换后的语音频谱过于平滑,因此Toda提出一种动态频率归整方法来改善语音质量[26]Duxans和Bonafonte等[28]分别用部分或全部非对准数据找到人工语音声学类的对应语音帧,从而降低了GMM技术对训练数据对准性的要求。
而Duxans提出的隐码尔科夫模型(HMM)方法是对GMM方法的延伸不少学者提出基于HMM的插值或自适应的方法来实现声音的转换[29-32]Sündermann[33]也采用声道长度归一化(VTLN)技术对语音频谱作了规整很多学者开始在各种分析/合成模型下对语音的谱特性和韵律特性综合进行考虑,以求更实现更精确的转变像Laroche[35]应用TD-PSOLA技术在不破坏转换后语音的共振峰结构情况下,实现了基频和时长的转变Kuwabara[36]详细比较了语音时域模型、sinusoidal模型和STRAIGHT模型下的转换性能的优劣国内这项语音技术的研究工作起步较晚中科院自动化所[37, 38]、声学所、微软亚洲研究院[9]、IBM 的CRL以及清华大学开始展开了这项研究所有这些研究者的工作极大地推动了声音转换技术的发展1.3 本文。