语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍

上传人:206****923 文档编号:51472402 上传时间:2018-08-14 格式:PPTX 页数:68 大小:19.20MB
返回 下载 相关 举报
语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍_第1页
第1页 / 共68页
语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍_第2页
第2页 / 共68页
语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍_第3页
第3页 / 共68页
语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍_第4页
第4页 / 共68页
语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍》由会员分享,可在线阅读,更多相关《语音技术及运用概述_基础课程-智能语音技术及产业应用前沿介绍(68页珍藏版)》请在金锄头文库上搜索。

1、智能语音技术及产业应用前 沿介绍2内 容 提 要一、语音的概念及内含二、智能语音核心技术及产业 最新进展三、移动互联网时代语音技术展望 语音: 人类发 音器官发出的声音 是声音的一种 包括说话 、歌唱等形式 语音产生于约二十万年前 但人类能听到的历史不过128年,(1877年:爱迪生 发明留声机) 计算机、声卡=语音的计算机处理技术什么是语音语音链语音产生机理元音发音器官形状发音方式(口型及送气等)决定了我们所发的音汉语辅 音音素元音a辅音ch语谱图 :能量 在不同频率上e)茶共振峰:能量 聚集的频带 , 取决于口形语音进入计算机:波形和语谱图波 形语 谱基 频语音信号中的一些基本概念计算机语

2、音识别 系统就是在“抓取“共振峰,可是“近视眼“语音的特性1: 共振峰基本决定内容但唱歌的时候,用基频来表现音高,此时忽略声调约 束语音的特性2: 基频的变化决定声调声门已不同,更不用说口型,可以说每个人的声音 都是不同的 = 声纹语音的特性3: 声音一样又不同人类听觉系统语音合成 声纹识别相似度评测Singing TTS哼唱检索唱歌评分情感合成情感识别多语种合成方言合成语种识别方言识别语音合成说话 人文本语音识别语音评测语音的丰富内涵15内 容 提 要一、语音的概念及内含二、智能语音核心技术及产业 最新进展三、移动互联网时代语音技术展望智能语音技术概述 智能语音技术:使信息时代的各种信息机器

3、像人一样“能听会 说”的技术,包括语音合成、语音识别 和语音评测 等可以将任意的文字信息转化为自然流畅的 语音,相当于给机器装上了人工嘴巴可以将语音中内容、说话 人、语种等信息 识别 出来,相当于给机器装上了人工耳朵可以进行发音标准评价和错误 反馈指导, 相当于把机器变成语音评测 老师 语语音技音技术术具有广具有广阔产业阔产业 化前景和重大化前景和重大战战略意略意义义语音合成系统流程图 语音合成系统主要包括语言处理、韵律处理和单元合 成等技术模块: 功能定义: 将输入的文字变成连续 的语音输出,即Text To Speech的过程,简称 TTS技术 主要难度: 首先,计算机要有大脑,要“懂”输

4、入的文字 兔子尾巴长不了 排量为1.8L 这里着起了火了 嘉峪关关长曾建国接受了访问 其次,计算机要有嘴巴,可以发出声音,两种嘴巴的实 现方式 基于波形拼接的方法 基于参数合成的方法语音合成技术 基本思路:录音拼接,简单 ! 如:希望合成“科大讯飞 ”,取以下录音片段 科学技术是第一大的生产力 大家都不要讨论别 人的是非 聆听世界的讯息 主要问题 设计 覆盖全面的录音文本 保持录音的平稳性,比一般电台播音员要求更高 分析合理的可替换上下文环境及替换代价基于波形拼接的方法 基本思路:参数预测 语音生成(合成器),算是 在模拟嘴巴! 如:希望合成“科大讯飞 ”,计算机首先学习得到 每个声韵母的合成

5、参数,然后送入合成器合成 主要问题 参数预测 要合理、各参数之间要协调 合成器合成的音质问题基于参数合成的方法21技术创 新点: 基于声学统计 模型的听感量化 单元拼接语音合成新方法“中国”基频模型集合 频谱 模型集合 时长 模型集合语音库特征 提取语流环境描述信息文本分析模型 选择基频模型 频谱 模型 时长 模型“zh” “ong1” “g” “uo2”基频特征 频谱 特征 时长 特征听感量化 备选单 元 提取最小单元挑选错误 准 则指导下的声学模型 训练zh+ong1 zh-ong1+g ong1-g+uo2 g-uo2语流环境标 注基于Kullback-Leibler距离与似 然值函数的

6、单元挑选算法中文合成语音自然度由3.6分提升至4.1分(2009年“智能语音交互关键技术及应用平台”项目鉴定意见)STOPSTOP21实现全概率准则指导下听感量化单元拼接语音合成新方法,合成语音 自然度率先突破4.0分这一代表普通人朗读自然度水平的技术门槛22音段与韵律标注的多样性语音生成方法的语种依赖 性多语种语音资源的稀疏性合成语音自然度的普适性关 键 技 术 问 题基于IPA国际音标和ToBI韵律标注规范, 设计统 一的跨语种语音音段与韵律描述体 系采用可训练的参数语音合成技术实现 了 语音生成阶段的语种无关性提出结合高层描述信息的模型自适应方法提出最小生成误差声学模型训练准则和基 于线

7、谱频 率及其阶间差分的语音增强方 法技术创 新点: 语种无关的语音合成系统构建方法22国内率先完成了包含粤语等方言,维吾尔语、藏语等少数民族语言和 英语、法语、俄语、日语、韩语等外语种的多语种语音合成系统23语音合成技术进 展 语音合成系统最关键的是自然度综合指标:年份1995年1998年1999年2001年2011年自然度卧室领导 |我市领导 |我室领到 nabiya=纳比亚|那笔呀|娜笔牙 人类耳朵和大脑相互弥补,语音识别则类 似和人类识别语 音相比误差率要大一到两个数量级语音识别噪声对识别 (语谱图 )的干扰信道对识别 (语谱图 )的干扰 语音识别输 入的都是语音 根据输出的不同,可以分

8、为三个层次 命令词识别 :只是若干给定的命令中选择 一个,如用户 必须说 “订火车票”、“订飞 机票” 智能交互技术:计算机大致理解用户的话,给出正确的 交互处理。如根据“我想买张 到北京的车票”=“订火车 票” 语音转写技术:计算机听写下来所说的文字,如医生说 处方等语音识别 核心问题 是:计算机要明白什么样的语音对应 到什 么音素,于是做法就是: 计算机首先通过大量的录音(标注了文本),训练语 音 和文本之间的对应 关系,更准确的说,建立每个音素的 声学模型,隐马 尔科夫模型,HMM 于是对于新输入的一段语音,计算机就是通过解码(可 以理解为有限的穷举 )获得最可能的音素序列,即为解 码结

9、 果,或说识别结 果 录音需要很多人的、很多环境的、覆盖不同因素的,这 样训练 得到的系统才是鲁棒的语音识别 基本思路 语音端点检测 :判断什么时候说话 开始结束,要 区别真正说话 和咳嗽声、关门声、敲桌子声 解码算法:要求高效,因为一个1秒钟的语音需要 的完全搜索空间都是非常大的: 置性度估计:识别 的结果有多少把握?因为识别 本100帧*44个可能音素*3个状态*16高斯*39维*10加乘运算身就是区分不清,所以是模糊上的模糊语音识别 所涉及的技术问题 声学模型训练 :很复杂的过程,最复杂的模型需要 80个CPU并行训个把星期 声学模型自适应:在已经训练 好的声学模型基础上 ,通过特定说话

10、 人(群)的少量数据,对声学模型 进行调整,提高识别 率 语言模型:从拼音到文字的信息来源,类似于拼音 输入法,但是识别结 果往往都是很多候选的 wo shi ling g dao wa si lin da wo shi lie dang语音识别 所涉及的技术问题36带噪语音特征域降噪模型域降噪联合因子分析噪声估计(JFA )去噪语音不相关变量规整的去噪模型训练(IVN )去噪模型降噪特征 模型匹配 识别技术创 新点:特征模型域综合噪声补偿 的抗噪方法分段线性近似噪声估计(PLA )国际标准噪声测 试集识别错误 率 相对下降30% (摘自附件证明 材料11-1/2)解决了语音识别对环 境噪声的

11、鲁棒性问 题37解决了语音识别对话 者口音的适应性问 题技术创 新点: 多流特征的区分性声学模型训练 新方法原始语音单流特征特征提取统计建 模模型结构冗余 区分度较差 性能迅速饱和海量口音训练数 据特征分流语谱特征声调特征 多流特征区分性训练模型结构紧凑 区分度好 性能单调 上升对口音覆盖 没有效果实际电话 口音 测试集错误率 相对下降53% (摘自附件证 明材料12-1)技术创 新点:超大规模加权有限状态自动机 的实时 解码算法38解决了语音识别对说话 内容的普适性问 题海量语料基于云计算的超 大规模语言模型 训练平台超大规模 语言模型加权有限状态自动机 解码空间构造算法WFST 解码空 间

12、分布式搜索算法解码效率提高10倍以上 支持百亿N-Gram实时解码传统语 言模型训练、解码方 法运算复杂度指数增加 无法训练 和实时 解码 语音呼叫路由(CallRouting)通过对 自然语言方式的语音输入的“理解”,正确转接 语音模糊搜索通过简 短语音输入,从百万级候选条目中检索 关键词检 出 监控大量的语音中有无涉及某些敏感词的片段识别 技术的应用1 命令词识别 声动炫铃/彩铃 自动电话转 接 电话银 行等 智能交互技术 语音呼叫路由:运营商/电话银 行 语音模糊搜索:车载GPS语音输入、电信114 关键词检 出:音视频内容审查、电话监 听 语音转写 医嘱/审讯/法庭/采访的转写识别 技

13、术的应用2美国国防部高级研究计划局(DARPA)长期对智能语音技术的研究与系统开发提供大量支持 美国国家标准技术研究院,隶属于美国商务部,是国际上对语音项目进行测试评 价的权威评测机构NIST 国际语 音识别评测 活动NIST 说话人识别评测( NIST SRE ) NIST举办,是国际上规模与影响 力最大的说话人识别评测活动 发起于1996年 2006年之后每两年评测一次 说话人识别任务难度接近大规模 实际应用环境(不同信道、不同 环境干扰)NIST 语种识别评测 ( NIST LRE ) NIST举办,是国际上规模与影响 力最大的语种识别评测活动 发起于1996年 2003第二次评测之后每

14、两年举行 一次 识别任务难度接近实用环境,针 对易混淆方言42NIST 说话 人识别评测参测单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、 Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构l科大讯飞研究机构在2008/2010年连续两届评测中均名列前茅, 打破了发达国家在说话人识别领域的技术垄断2008年NIST说话人识别测试关键指标排名(全球前2名)单位代号单位名称minDCFActDCFEERiFLY科大讯飞0.1070.1872.625I4uCMU与新加坡IIR等合作0.1230.1793.2252010年NIST说话人识别测试关

15、键指标排名(全球前2名)单位代号单位名称minDCFActDCFEERSRI斯坦福研究中心0.2980.5051.861iFLY科大讯飞0.3320.4052.3002009年NIST语种识别评测分项排名名次代号代表机构分项排名P1P2P3P4P5P6P7P81iFLY科大讯飞111111232LPT都灵理工大学333233113MITLL麻省理工学院 林肯实验室2223223243NIST 语种识别评测l科大讯飞研究机构在2009/2011年连续两届评测中均获得优异 成绩,2009年在8个最混淆方言对测试中获得6项第一;2011 年在9个最混淆方言对测试中获得7项第一参赛单位:麻省理工学院林肯实验室(MITLL)、法国科学研究中心(LIMSI ),捷克布 尔诺科技大学(BUT)、清华大学等2011年NIST语种识别评测分项排名名次代号代表机构不同方言对测试结果排名P1P2P3P4P5P6P7P8P91iFLY科大讯飞1121121112MITLL麻省理工学院 林肯实验室2212313233BLZ捷克布尔诺科技大 学 & 法国科学 研究中心333323232语音评测 系统流程图 语音评测 系统包括发音标准模型建立、音段韵律发音 质量分析和人工评分回归映射等核心模块: 功能定

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号