语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍

资源描述

《语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍》由会员分享，可在线阅读，更多相关《语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍（68页珍藏版）》请在金锄头文库上搜索。

1、智能语音技术及产业应用前沿介绍2内容提要一、语音的概念及内含二、智能语音核心技术及产业最新进展三、移动互联网时代语音技术展望语音：人类发音器官发出的声音是声音的一种包括说话、歌唱等形式语音产生于约二十万年前但人类能听到的历史不过128年，（1877年：爱迪生发明留声机）计算机、声卡=语音的计算机处理技术什么是语音语音链语音产生机理元音发音器官形状发音方式（口型及送气等）决定了我们所发的音汉语辅音音素元音a辅音ch语谱图：能量在不同频率上e）茶共振峰：能量聚集的频带，取决于口形语音进入计算机：波形和语谱图波形语谱基频语音信号中的一些基本概念计算机语

2、音识别系统就是在“抓取“共振峰，可是“近视眼“语音的特性1：共振峰基本决定内容但唱歌的时候，用基频来表现音高，此时忽略声调约束语音的特性2：基频的变化决定声调声门已不同，更不用说口型，可以说每个人的声音都是不同的 = 声纹语音的特性3：声音一样又不同人类听觉系统语音合成声纹识别相似度评测Singing TTS哼唱检索唱歌评分情感合成情感识别多语种合成方言合成语种识别方言识别语音合成说话人文本语音识别语音评测语音的丰富内涵15内容提要一、语音的概念及内含二、智能语音核心技术及产业最新进展三、移动互联网时代语音技术展望智能语音技术概述智能语音技术：使信息时代的各种信息机器

3、像人一样“能听会说”的技术，包括语音合成、语音识别和语音评测等可以将任意的文字信息转化为自然流畅的语音,相当于给机器装上了人工嘴巴可以将语音中内容、说话人、语种等信息识别出来，相当于给机器装上了人工耳朵可以进行发音标准评价和错误反馈指导，相当于把机器变成语音评测老师语语音技音技术术具有广具有广阔产业阔产业化前景和重大化前景和重大战战略意略意义义语音合成系统流程图语音合成系统主要包括语言处理、韵律处理和单元合成等技术模块：功能定义：将输入的文字变成连续的语音输出，即Text To Speech的过程,简称 TTS技术主要难度：首先，计算机要有大脑，要“懂”输

4、入的文字兔子尾巴长不了排量为1.8L 这里着起了火了嘉峪关关长曾建国接受了访问其次，计算机要有嘴巴，可以发出声音，两种嘴巴的实现方式基于波形拼接的方法基于参数合成的方法语音合成技术基本思路：录音拼接，简单！如：希望合成“科大讯飞 ”，取以下录音片段科学技术是第一大的生产力大家都不要讨论别人的是非聆听世界的讯息主要问题设计覆盖全面的录音文本保持录音的平稳性，比一般电台播音员要求更高分析合理的可替换上下文环境及替换代价基于波形拼接的方法基本思路：参数预测语音生成（合成器），算是在模拟嘴巴！如：希望合成“科大讯飞 ”，计算机首先学习得到每个声韵母的合成

5、参数，然后送入合成器合成主要问题参数预测要合理、各参数之间要协调合成器合成的音质问题基于参数合成的方法21技术创新点：基于声学统计模型的听感量化单元拼接语音合成新方法“中国”基频模型集合频谱模型集合时长模型集合语音库特征提取语流环境描述信息文本分析模型选择基频模型频谱模型时长模型“zh” “ong1” “g” “uo2”基频特征频谱特征时长特征听感量化备选单元提取最小单元挑选错误准则指导下的声学模型训练zh+ong1 zh-ong1+g ong1-g+uo2 g-uo2语流环境标注基于Kullback-Leibler距离与似然值函数的

6、单元挑选算法中文合成语音自然度由3.6分提升至4.1分（2009年“智能语音交互关键技术及应用平台”项目鉴定意见）STOPSTOP21实现全概率准则指导下听感量化单元拼接语音合成新方法，合成语音自然度率先突破4.0分这一代表普通人朗读自然度水平的技术门槛22音段与韵律标注的多样性语音生成方法的语种依赖性多语种语音资源的稀疏性合成语音自然度的普适性关键技术问题基于IPA国际音标和ToBI韵律标注规范，设计统一的跨语种语音音段与韵律描述体系采用可训练的参数语音合成技术实现了语音生成阶段的语种无关性提出结合高层描述信息的模型自适应方法提出最小生成误差声学模型训练准则和基于线

7、谱频率及其阶间差分的语音增强方法技术创新点：语种无关的语音合成系统构建方法22国内率先完成了包含粤语等方言，维吾尔语、藏语等少数民族语言和英语、法语、俄语、日语、韩语等外语种的多语种语音合成系统23语音合成技术进展语音合成系统最关键的是自然度综合指标：年份1995年1998年1999年2001年2011年自然度卧室领导 |我市领导 |我室领到 nabiya=纳比亚|那笔呀|娜笔牙人类耳朵和大脑相互弥补，语音识别则类似和人类识别语音相比误差率要大一到两个数量级语音识别噪声对识别（语谱图）的干扰信道对识别（语谱图）的干扰语音识别输入的都是语音根据输出的不同，可以分

8、为三个层次命令词识别：只是若干给定的命令中选择一个，如用户必须说 “订火车票”、“订飞机票” 智能交互技术：计算机大致理解用户的话，给出正确的交互处理。如根据“我想买张到北京的车票”=“订火车票” 语音转写技术：计算机听写下来所说的文字，如医生说处方等语音识别核心问题是：计算机要明白什么样的语音对应到什么音素，于是做法就是：计算机首先通过大量的录音（标注了文本），训练语音和文本之间的对应关系，更准确的说，建立每个音素的声学模型，隐马尔科夫模型，HMM 于是对于新输入的一段语音，计算机就是通过解码（可以理解为有限的穷举）获得最可能的音素序列，即为解码结

9、果，或说识别结果录音需要很多人的、很多环境的、覆盖不同因素的，这样训练得到的系统才是鲁棒的语音识别基本思路语音端点检测：判断什么时候说话开始结束，要区别真正说话和咳嗽声、关门声、敲桌子声解码算法：要求高效，因为一个1秒钟的语音需要的完全搜索空间都是非常大的：置性度估计：识别的结果有多少把握？因为识别本100帧*44个可能音素*3个状态*16高斯*39维*10加乘运算身就是区分不清，所以是模糊上的模糊语音识别所涉及的技术问题声学模型训练：很复杂的过程，最复杂的模型需要 80个CPU并行训个把星期声学模型自适应：在已经训练好的声学模型基础上，通过特定说话

10、人（群）的少量数据，对声学模型进行调整，提高识别率语言模型：从拼音到文字的信息来源，类似于拼音输入法，但是识别结果往往都是很多候选的 wo shi ling g dao wa si lin da wo shi lie dang语音识别所涉及的技术问题36带噪语音特征域降噪模型域降噪联合因子分析噪声估计（JFA ）去噪语音不相关变量规整的去噪模型训练（IVN ）去噪模型降噪特征模型匹配识别技术创新点：特征模型域综合噪声补偿的抗噪方法分段线性近似噪声估计（PLA ）国际标准噪声测试集识别错误率相对下降30% （摘自附件证明材料11-1/2）解决了语音识别对环境噪声的

11、鲁棒性问题37解决了语音识别对话者口音的适应性问题技术创新点：多流特征的区分性声学模型训练新方法原始语音单流特征特征提取统计建模模型结构冗余区分度较差性能迅速饱和海量口音训练数据特征分流语谱特征声调特征多流特征区分性训练模型结构紧凑区分度好性能单调上升对口音覆盖没有效果实际电话口音测试集错误率相对下降53% （摘自附件证明材料12-1）技术创新点：超大规模加权有限状态自动机的实时解码算法38解决了语音识别对说话内容的普适性问题海量语料基于云计算的超大规模语言模型训练平台超大规模语言模型加权有限状态自动机解码空间构造算法WFST 解码空间

12、分布式搜索算法解码效率提高10倍以上支持百亿N-Gram实时解码传统语言模型训练、解码方法运算复杂度指数增加无法训练和实时解码语音呼叫路由（CallRouting）通过对自然语言方式的语音输入的“理解”，正确转接语音模糊搜索通过简短语音输入，从百万级候选条目中检索关键词检出监控大量的语音中有无涉及某些敏感词的片段识别技术的应用1 命令词识别声动炫铃/彩铃自动电话转接电话银行等智能交互技术语音呼叫路由：运营商/电话银行语音模糊搜索：车载GPS语音输入、电信114 关键词检出：音视频内容审查、电话监听语音转写医嘱/审讯/法庭/采访的转写识别技

13、术的应用2美国国防部高级研究计划局（DARPA）长期对智能语音技术的研究与系统开发提供大量支持美国国家标准技术研究院，隶属于美国商务部，是国际上对语音项目进行测试评价的权威评测机构NIST 国际语音识别评测活动NIST 说话人识别评测( NIST SRE ) NIST举办，是国际上规模与影响力最大的说话人识别评测活动发起于1996年 2006年之后每两年评测一次说话人识别任务难度接近大规模实际应用环境（不同信道、不同环境干扰）NIST 语种识别评测 ( NIST LRE ) NIST举办，是国际上规模与影响力最大的语种识别评测活动发起于1996年 2003第二次评测之后每

14、两年举行一次识别任务难度接近实用环境，针对易混淆方言42NIST 说话人识别评测参测单位有：CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、 Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构l科大讯飞研究机构在2008/2010年连续两届评测中均名列前茅，打破了发达国家在说话人识别领域的技术垄断2008年NIST说话人识别测试关键指标排名（全球前2名）单位代号单位名称minDCFActDCFEERiFLY科大讯飞0.1070.1872.625I4uCMU与新加坡IIR等合作0.1230.1793.2252010年NIST说话人识别测试关

15、键指标排名（全球前2名）单位代号单位名称minDCFActDCFEERSRI斯坦福研究中心0.2980.5051.861iFLY科大讯飞0.3320.4052.3002009年NIST语种识别评测分项排名名次代号代表机构分项排名P1P2P3P4P5P6P7P81iFLY科大讯飞111111232LPT都灵理工大学333233113MITLL麻省理工学院林肯实验室2223223243NIST 语种识别评测l科大讯飞研究机构在2009/2011年连续两届评测中均获得优异成绩，2009年在8个最混淆方言对测试中获得6项第一；2011 年在9个最混淆方言对测试中获得7项第一参赛单位：麻省理工学院林肯实验室（MITLL）、法国科学研究中心(LIMSI )，捷克布尔诺科技大学(BUT)、清华大学等2011年NIST语种识别评测分项排名名次代号代表机构不同方言对测试结果排名P1P2P3P4P5P6P7P8P91iFLY科大讯飞1121121112MITLL麻省理工学院林肯实验室2212313233BLZ捷克布尔诺科技大学 & 法国科学研究中心333323232语音评测系统流程图语音评测系统包括发音标准模型建立、音段韵律发音质量分析和人工评分回归映射等核心模块：功能定

展开阅读全文