语音数据与语音合成

上传人:豆浆 文档编号:49021316 上传时间:2018-07-22 格式:PPT 页数:44 大小:5.86MB
返回 下载 相关 举报
语音数据与语音合成_第1页
第1页 / 共44页
语音数据与语音合成_第2页
第2页 / 共44页
语音数据与语音合成_第3页
第3页 / 共44页
语音数据与语音合成_第4页
第4页 / 共44页
语音数据与语音合成_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《语音数据与语音合成》由会员分享,可在线阅读,更多相关《语音数据与语音合成(44页珍藏版)》请在金锄头文库上搜索。

1、语音音库与合成江源 2009-6-11语音合成技术 什么叫语音合成 Text To Speech过程,简称TTS 作用:将文本状态的文字信息转化为可听的声音信息 “电脑会说话”键 盘光电扫描手写识别网络/数据 库文 本语言处理韵律处理语音合成结果输出词典/规则语音库发声机理 语音产生的生理过程总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听数字语音信号 什么是数字语音信号 语音:说话,声波传递的语言 语音信号:记录下来的声波振动 模拟语音信号: (磁带,唱片) 数字语音信号:模拟信号数字化 (wav mp3 CD)- 计算机应用的需要 如何数字化

2、取样:采样率(时间尺子,8K,16K,44K,每秒样点数量 ) 量化:量化精度(幅度尺子,16bit,-3276732768范围)数字语音信号 取样和量化数字语音信号 波形不能说明内容数字语音信号 频域介绍 一段任意波形可以由一系列正弦波形组合而成 离散傅里叶变换数学表示: 最高值,采样率的一半(16K wav;max freq = 8K Hz) 人可听辨的频率范围: (20Hz 20kHz) 电话语音信道的频率范围(60Hz 3400Hz)数字语音信号 语谱图数字语音信号 清音和浊音 浊音:声带的快速振动,声带能够将稳定气流转换成振动 振动频率称为基频,准周期性 清音:紊乱气流,肺部气流通过

3、声道中的狭窄处产生 爆破音:突然爆破数字语音信号 声学特征 如此杂乱多变的信号,如何描述,如何恢复? 语音信号产生的数字模型(源-滤波器模型)数字语音信号 声学特征 基频:发浊音时声带振动引起的周期变化,我们听感音调 高低主要由基频决定,中文声调还用于区分语义 谱参数:描述声道和口唇辐射 共振峰,LPC,倒谱参数总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据标注与合成 4 . 合成效果测听语音合成技术 主流技术路线 基于统计规则的大语料库拼接语音合成系统 基于HMM的参数语音合成系统 基于HMM的语料库拼接语音合成系统两条道路: 要么是波形切分再拼合起来,要么是声学参数转化出来

4、语音合成技术 基于统计规则的大语料库拼接语音合成系统 传统大语料库合成, InterPhonic 5.0之前 单元挑选波形拼接 超大规模音库制作 语料设计,音库录制,精细切分,韵律标注 规则统计,针对不同发音人的细致调整 优点:音质最佳,正常句子的自然度也很好 缺点:非常依赖音库的规模大小和制作质量,存在一定 稳定性问题,不能应用在小型设备中 样例:输入文本输入文本拼音信息和韵律结构信息拼音信息和韵律结构信息每个单元将取每个单元将取 多个候选多个候选 s1 s2 s3 s4s1 s2 s3 s4目标代价挑选候选单元目标代价挑选候选单元词典等文本分析知识词典等文本分析知识大规模语音库大规模语音库

5、再考虑连接代价决定最后选定单元再考虑连接代价决定最后选定单元 s1 s2 s3 s4 s5 s6s1 s2 s3 s4 s5 s6输出语音输出语音语音合成技术语音合成技术 InterPhonic系统处理流程语音合成技术 基于HMM的参数语音合成系统 首先进行语音特征参数的提取 以音素为单位(中文为声韵母),使用HMM (Hidden Markov Model)对自然语流的频谱特征参数进行建模 采用基于决策树的聚类方法对上下文相关模型进行聚类, 以提高模型的鲁棒性,得到预测参数 最后生成参数输入合成器,得到合成语音 优点:所需音库规模小,标注精度要求相对降低,自然度 高,系统小,灵活度高,Viv

6、iVoice,AiSound 缺点:音质相对较差,带有合成器风格 样例:语音合成技术 参数语音合成系统框架语音合成技术 HMM参数建模 用声学参数针对音素建模 为什么要建模?描述的音素特征变化 隐马尔科夫模型( Hidden Markov Model - HMM )语音合成技术 决策树模型聚类 有了模型怎么使用?来一句话怎么预知用哪个模型? 基于上下文的信息的决策树聚类语音合成技术 基于HMM的语料库拼接语音合成系统 利用HMM目标模型和连接模型来指导单元挑选 结合参数训练模型的数学统计模型优势和波形拼接的高 音质,相对以前的大语料库技术在自然度上有较大提升 自主原发,意义重大 优点:拥有明确

7、目标和度量准则,音质好,自然度高, 系统搭建自动化程度高,InterPhonic 5.5以上版本 缺点:仍然需要很大规模的语料库,计算量较大 样例:语音合成技术 基于HMM的单元挑选系统结构图总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听数据制作与合成 数据与合成的关系 音库数据是合成系统的基石,离开了音库谈合成就是 “无源之水 无本之木” 一份音库的制作质量,直接决定了该发音人合成系统的 能达到什么效果数据制作与合成 数据制作过程 音库设计 音库录制 音素切分 韵律标注 音素检错 基频修正 索引制作数据制作与合成 音库设计与合成 一个设计良好的

8、音库要有较好的音素,韵律覆盖率 广泛的语料来源,保证超大规模库的稳定 某方向定制语料,提升某特应用场合的效果,对语料库 拼接技术很重要 “还烦请大家收集更多更好的语料文本”数据制作与合成 音库录制与合成 录音控制很重要 录音室环境,隔除噪音 话筒的摆放,能量幅度范围 如何保持发音人的发音状态 轻松心态,自然流程,不要带情绪,除非这是情感库 适度原则,不要疲劳录音,宁缺勿滥 批次比对,及时与之前数据做比对,可加入重复句 “还请大家多关注录音质量”数据制作与合成 音素切分与合成 切分精度 精切:大语料库拼接标准,周期下降沿 粗切:参数合成与HMM拼接,模型具有一定内部切分调整能力 粗切不代表切分不

9、重要,好的初始位置能帮助模型自切。 电脑未必比人聪明,清浊好定,浊浊也难定,还需修正 停顿位置 什么地方有Sp,silv,pau? 标准L3层以上边界,30ms以上计算机才能使用 如果本来有停顿却没有加silv,停顿段会影响前后音素单元质量 一些录音缺陷也可塞给停顿位置,鼻息,口水音 合成样例: The*psychotropic*airplanes#underwrote*the*dispassionate*song。数据制作与合成 音素切分与合成 音变处理 连续语流总存在一些规则音变或者不规则音变,导致所读不是 原来词典音素 音素是身份牌,这个错了后果很严重! 修改标准:尊重录音 中文:声调变

10、化,儿化,轻读。没被改过的音变就是地雷 英文:连读,吞音,弱化,缩写词 吞音标准:有无音位,或者我去掉这个读有无差别 英文音素短,不是母语,更需小心 “还请大家切音时多细心”数据制作与合成 韵律标注与合成 韵律标注是音素的档案,据此来分门别类,听候取用 良好的韵律标注帮助我们构建正确有效的统计预测结构 ,上下文韵律决策树 如果韵律标注是错误的,连锁毁灭性破坏韵律标错 - 聚类分错 - 模型建错 - 预测走错 - 参数找错 - 挑选看错 - 合成出错 -客户很生气- game over数据制作与合成 韵律标注与合成 中文韵律:调型,停顿层次(L0 L1 L2 L3 L4 L5) 英文韵律:ToB

11、I ( Tone and Break Index) 停顿层次: Tone Break 边界调: Phrase Tone 重读: Pitch Accent数据制作与合成 韵律标注与合成 标注不同对合成的影响实例 重读But*I*did*not(H*)*enjoy*it*long。 边界调Now*run*along(L-H%),and*tell*them*to*hurry。数据制作与合成 韵律标注与合成 一致性! 一致性非常重要,统一标准 面对模棱两可的地方,如何取舍? 个人尊重大家意见 新人咨询资深意见 多讨论,多比对 对新录库可以按批次做一致性检查 “还请大家细致统一的标注韵律”数据制作与合成

12、 音素检错与基频修正 评测会给数据打分纠错,合成也需要 挑出音库中可能存在的地雷 检错种类: 浊浊修正 调型修正 音素修正 基频修正 特点:直接锁定位置判断,规律性强 “还请大家多反馈检错时的规律总结”数据制作与合成 索引制作与合成 音库索引将音库韵律和参数信息整理保存 合成需要从索引中提取数据,拼接合成在系统挑选时还 需要直接使用索引 较为固定,但一旦出错不易更改 某个词性错位问题遗留很久才被发现(技术人员的错误) “制库工作很繁琐,烦劳大家了”总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听合成效果测听 测听与合成 效果测听是评判合成系统好坏的

13、硬性指标 常用测听项目 音质 自然度 相似度 主观打分标准,(mean opinion score, MOS)MOS分主观意见5分优,察觉不到任何不自然4分良,刚察觉若干不自然3分可,能察觉不自然但可以接受2分差,明显察觉但可忍受1分坏,不可忍受合成效果测听 测听与合成 音质测听注意事项 对音质由技术路线主导,但敏感度因人而异,主观好恶 16K原始录音音质可打5分 16k原始分析合成可到4分 波形拼接合成音质可超4分 参数合成系统音质在3分附近 尽量减少自然度上的错误对音质打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 测听数量不能少,要有覆盖率和代表性 一只好耳机,包

14、住耳朵,提高音量 其实,5分很高,2分很低合成效果测听 测听与合成 自然度测听注意事项 同样是主观打分,个人标准看待 说话人原始录音也只能接近5分 参数合成较为流畅,相对平淡 拼接合成存在不稳定性,波动较大 自然度测听强调对不自然处的扣分 同样尽量减少不同音质对自然度打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 保证一定数据量,如果数量很多,可以分批测听 5分太高,2分很丢人合成效果测听 测听与合成 相似度测听注意事项 一般会提供目标人的录音作参照 重点考察音色,兼顾基频,时长,口音 一般测听要求 黑盒不重要 0.5分间隔:提高一致性合成效果测听 测听与合成 偏向性测听注意事项 在两个较为接近的效果中取舍 测听要求 一定要黑盒! 可以用黑盒工具,固定0, 1打分 偏向性选择只能选一个 在特别说明时,对难以区分的,可以同时选或不选合成效果测听 测听与合成 外教测听注意事项 对外语种合成效果测听,native人士的感觉很重要 一般只对整体感觉打分,综合音质自然度 测听要求 多交流说明我们的目的 对关注的问题需要直接沟通 控制测听时间和数量,保证测听质量合成效果测听 测听与合成 一句话总结 “还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合 成语音做出客观,细致,有代表性的评判”谢谢!欢 迎 提

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号