语音数据与语音合成

资源描述

《语音数据与语音合成》由会员分享，可在线阅读，更多相关《语音数据与语音合成（44页珍藏版）》请在金锄头文库上搜索。

1、语音音库与合成江源 2009-6-11语音合成技术什么叫语音合成 Text To Speech过程,简称TTS 作用：将文本状态的文字信息转化为可听的声音信息 “电脑会说话”键盘光电扫描手写识别网络/数据库文本语言处理韵律处理语音合成结果输出词典/规则语音库发声机理语音产生的生理过程总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听数字语音信号什么是数字语音信号语音：说话，声波传递的语言语音信号：记录下来的声波振动模拟语音信号：（磁带，唱片）数字语音信号：模拟信号数字化（wav mp3 CD）- 计算机应用的需要如何数字化

2、取样：采样率（时间尺子，8K，16K，44K，每秒样点数量）量化：量化精度（幅度尺子，16bit，-3276732768范围）数字语音信号取样和量化数字语音信号波形不能说明内容数字语音信号频域介绍一段任意波形可以由一系列正弦波形组合而成离散傅里叶变换数学表示：最高值，采样率的一半（16K wav；max freq = 8K Hz）人可听辨的频率范围：（20Hz 20kHz）电话语音信道的频率范围（60Hz 3400Hz）数字语音信号语谱图数字语音信号清音和浊音浊音：声带的快速振动，声带能够将稳定气流转换成振动振动频率称为基频，准周期性清音：紊乱气流，肺部气流通过

3、声道中的狭窄处产生爆破音：突然爆破数字语音信号声学特征如此杂乱多变的信号，如何描述，如何恢复？语音信号产生的数字模型（源-滤波器模型）数字语音信号声学特征基频：发浊音时声带振动引起的周期变化，我们听感音调高低主要由基频决定，中文声调还用于区分语义谱参数：描述声道和口唇辐射共振峰，LPC，倒谱参数总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据标注与合成 4 . 合成效果测听语音合成技术主流技术路线基于统计规则的大语料库拼接语音合成系统基于HMM的参数语音合成系统基于HMM的语料库拼接语音合成系统两条道路：要么是波形切分再拼合起来，要么是声学参数转化出来

4、语音合成技术基于统计规则的大语料库拼接语音合成系统传统大语料库合成， InterPhonic 5.0之前单元挑选波形拼接超大规模音库制作语料设计，音库录制，精细切分，韵律标注规则统计，针对不同发音人的细致调整优点：音质最佳，正常句子的自然度也很好缺点：非常依赖音库的规模大小和制作质量，存在一定稳定性问题，不能应用在小型设备中样例：输入文本输入文本拼音信息和韵律结构信息拼音信息和韵律结构信息每个单元将取每个单元将取多个候选多个候选 s1 s2 s3 s4s1 s2 s3 s4目标代价挑选候选单元目标代价挑选候选单元词典等文本分析知识词典等文本分析知识大规模语音库大规模语音库

5、再考虑连接代价决定最后选定单元再考虑连接代价决定最后选定单元 s1 s2 s3 s4 s5 s6s1 s2 s3 s4 s5 s6输出语音输出语音语音合成技术语音合成技术 InterPhonic系统处理流程语音合成技术基于HMM的参数语音合成系统首先进行语音特征参数的提取以音素为单位（中文为声韵母），使用HMM （Hidden Markov Model）对自然语流的频谱特征参数进行建模采用基于决策树的聚类方法对上下文相关模型进行聚类，以提高模型的鲁棒性，得到预测参数最后生成参数输入合成器，得到合成语音优点：所需音库规模小，标注精度要求相对降低，自然度高，系统小，灵活度高，Viv

6、iVoice，AiSound 缺点：音质相对较差，带有合成器风格样例：语音合成技术参数语音合成系统框架语音合成技术 HMM参数建模用声学参数针对音素建模为什么要建模？描述的音素特征变化隐马尔科夫模型（ Hidden Markov Model - HMM ）语音合成技术决策树模型聚类有了模型怎么使用？来一句话怎么预知用哪个模型？基于上下文的信息的决策树聚类语音合成技术基于HMM的语料库拼接语音合成系统利用HMM目标模型和连接模型来指导单元挑选结合参数训练模型的数学统计模型优势和波形拼接的高音质，相对以前的大语料库技术在自然度上有较大提升自主原发，意义重大优点：拥有明确

7、目标和度量准则，音质好，自然度高，系统搭建自动化程度高，InterPhonic 5.5以上版本缺点：仍然需要很大规模的语料库，计算量较大样例：语音合成技术基于HMM的单元挑选系统结构图总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听数据制作与合成数据与合成的关系音库数据是合成系统的基石，离开了音库谈合成就是 “无源之水无本之木” 一份音库的制作质量，直接决定了该发音人合成系统的能达到什么效果数据制作与合成数据制作过程音库设计音库录制音素切分韵律标注音素检错基频修正索引制作数据制作与合成音库设计与合成一个设计良好的

8、音库要有较好的音素，韵律覆盖率广泛的语料来源，保证超大规模库的稳定某方向定制语料，提升某特应用场合的效果，对语料库拼接技术很重要 “还烦请大家收集更多更好的语料文本”数据制作与合成音库录制与合成录音控制很重要录音室环境，隔除噪音话筒的摆放，能量幅度范围如何保持发音人的发音状态轻松心态，自然流程，不要带情绪，除非这是情感库适度原则，不要疲劳录音，宁缺勿滥批次比对，及时与之前数据做比对，可加入重复句 “还请大家多关注录音质量”数据制作与合成音素切分与合成切分精度精切：大语料库拼接标准，周期下降沿粗切：参数合成与HMM拼接，模型具有一定内部切分调整能力粗切不代表切分不

9、重要，好的初始位置能帮助模型自切。电脑未必比人聪明，清浊好定，浊浊也难定，还需修正停顿位置什么地方有Sp，silv，pau？标准L3层以上边界，30ms以上计算机才能使用如果本来有停顿却没有加silv，停顿段会影响前后音素单元质量一些录音缺陷也可塞给停顿位置，鼻息，口水音合成样例： The*psychotropic*airplanes#underwrote*the*dispassionate*song。数据制作与合成音素切分与合成音变处理连续语流总存在一些规则音变或者不规则音变，导致所读不是原来词典音素音素是身份牌，这个错了后果很严重！修改标准：尊重录音中文：声调变

10、化，儿化，轻读。没被改过的音变就是地雷英文：连读，吞音，弱化，缩写词吞音标准：有无音位，或者我去掉这个读有无差别英文音素短，不是母语，更需小心 “还请大家切音时多细心”数据制作与合成韵律标注与合成韵律标注是音素的档案，据此来分门别类，听候取用良好的韵律标注帮助我们构建正确有效的统计预测结构，上下文韵律决策树如果韵律标注是错误的，连锁毁灭性破坏韵律标错 - 聚类分错 - 模型建错 - 预测走错 - 参数找错 - 挑选看错 - 合成出错 -客户很生气- game over数据制作与合成韵律标注与合成中文韵律：调型，停顿层次（L0 L1 L2 L3 L4 L5）英文韵律：ToB

11、I ( Tone and Break Index) 停顿层次： Tone Break 边界调： Phrase Tone 重读： Pitch Accent数据制作与合成韵律标注与合成标注不同对合成的影响实例重读But*I*did*not(H*)*enjoy*it*long。边界调Now*run*along(L-H%)，and*tell*them*to*hurry。数据制作与合成韵律标注与合成一致性！一致性非常重要，统一标准面对模棱两可的地方，如何取舍？个人尊重大家意见新人咨询资深意见多讨论，多比对对新录库可以按批次做一致性检查 “还请大家细致统一的标注韵律”数据制作与合成

12、音素检错与基频修正评测会给数据打分纠错，合成也需要挑出音库中可能存在的地雷检错种类：浊浊修正调型修正音素修正基频修正特点：直接锁定位置判断，规律性强 “还请大家多反馈检错时的规律总结”数据制作与合成索引制作与合成音库索引将音库韵律和参数信息整理保存合成需要从索引中提取数据，拼接合成在系统挑选时还需要直接使用索引较为固定，但一旦出错不易更改某个词性错位问题遗留很久才被发现（技术人员的错误） “制库工作很繁琐，烦劳大家了”总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听合成效果测听测听与合成效果测听是评判合成系统好坏的

13、硬性指标常用测听项目音质自然度相似度主观打分标准，（mean opinion score， MOS）MOS分主观意见5分优，察觉不到任何不自然4分良，刚察觉若干不自然3分可，能察觉不自然但可以接受2分差，明显察觉但可忍受1分坏，不可忍受合成效果测听测听与合成音质测听注意事项对音质由技术路线主导，但敏感度因人而异，主观好恶 16K原始录音音质可打5分 16k原始分析合成可到4分波形拼接合成音质可超4分参数合成系统音质在3分附近尽量减少自然度上的错误对音质打分的影响一般测听要求黑盒：防止惯性打分 0.5分间隔：提高一致性测听数量不能少，要有覆盖率和代表性一只好耳机，包

14、住耳朵，提高音量其实，5分很高，2分很低合成效果测听测听与合成自然度测听注意事项同样是主观打分，个人标准看待说话人原始录音也只能接近5分参数合成较为流畅，相对平淡拼接合成存在不稳定性，波动较大自然度测听强调对不自然处的扣分同样尽量减少不同音质对自然度打分的影响一般测听要求黑盒：防止惯性打分 0.5分间隔：提高一致性保证一定数据量，如果数量很多，可以分批测听 5分太高，2分很丢人合成效果测听测听与合成相似度测听注意事项一般会提供目标人的录音作参照重点考察音色，兼顾基频，时长，口音一般测听要求黑盒不重要 0.5分间隔：提高一致性合成效果测听测听与合成偏向性测听注意事项在两个较为接近的效果中取舍测听要求一定要黑盒！可以用黑盒工具，固定0， 1打分偏向性选择只能选一个在特别说明时，对难以区分的，可以同时选或不选合成效果测听测听与合成外教测听注意事项对外语种合成效果测听，native人士的感觉很重要一般只对整体感觉打分，综合音质自然度测听要求多交流说明我们的目的对关注的问题需要直接沟通控制测听时间和数量，保证测听质量合成效果测听测听与合成一句话总结 “还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合成语音做出客观，细致，有代表性的评判”谢谢！欢迎提

展开阅读全文