语音技术前沿及应用

上传人:xiao****1972 文档编号:78602916 上传时间:2019-02-14 格式:PPT 页数:93 大小:14.09MB
返回 下载 相关 举报
语音技术前沿及应用_第1页
第1页 / 共93页
语音技术前沿及应用_第2页
第2页 / 共93页
语音技术前沿及应用_第3页
第3页 / 共93页
语音技术前沿及应用_第4页
第4页 / 共93页
语音技术前沿及应用_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《语音技术前沿及应用》由会员分享,可在线阅读,更多相关《语音技术前沿及应用(93页珍藏版)》请在金锄头文库上搜索。

1、语音及语言研究、技术及应用,讯飞研究院,安徽中科大讯飞信息科技有限公司 AnHui USTC iFlyTek CO., LTD. 2006年07月,范围与面向,本课程包括: 什么是语音、语言,有什么特性(80分钟) 智能语音及语言技术包括哪些,讯飞优势(120分钟) 本课程面向: 以前没有或者较少接触语音及语言技术的 所有公司员工,什么是语音、语言,有什么特性,语音,讯飞语音 沟通无限 语音:人类发音器官发出的声音 语音产生于几百万年前 但人类能听到的历史不过128年,(1877年:爱迪生发明留声机) 无声电影=有声电影 计算机、声卡=语音的计算机处理技术 人类每天说的话如果存下来,,两个不同

2、频率的“嘟”,语音链,语音产生机理,元音发音器官形状,汉语辅音音素,语音进入计算机:波形和语谱图,喝( h e )茶,语音信号中的一些基本概念,波形 语谱 基频,采样率,量化比特数,声道数 帧,音高,时长,能量,语音的特性1:波形不说明内容,语音的特性2:共振峰基本决定内容,语音的特性3:基频决定声调,语音的特性4:声音一样又不同,语音的特性4:汉语方言一级元音格局,引自:时秀娟,汉语方言元音格局的实验研究,南开大学博士论文,2005年4月。,哈尔滨,济南,青岛,天津,兰州,郑州,成都,南京,人类听觉系统,计算机眼中的语音,就是一系列的物理参数 隐马尔科夫(HMM)语音建模 10秒钟的数据 1

3、0*16K*16bit的数据,且几乎没有任何规律 1000帧,每帧可以计算39个浮点数,3.9万个浮点数,也没什么规律 40个音节,80个声韵母 320个HMM状态,每个状态20个Gauss函数,每个高斯2参数 每个声韵母分别包含哪些帧,几近无穷可能 数据多!所能看到的数据和声韵母联系起来困难,语言,语音语言不分家 语言:人类特有的能力 有2500至3500种语言 汉语属汉藏语系,英语属印欧语系日耳曼语族 语言层级: 音素、声韵母、音节、字、词、短语、句子、篇章 以有限的音节和字按规定的文法构建出无限的句子 语言理解: 词法、语法、语义、语用,计算机眼中的语言,数据少意思多!寥寥数字,无穷意境

4、,智能语音及语言技术包括哪些 讯飞优势,智能语音及语言技术,语音 合成、识别、编码、转换、身份识别及确认、音色分类、评测、哼唱检索、音乐检索、语音检索、Singing TTS、降噪、音效 语言 基础研究:词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取,语音合成技术(Speech Synthesis),即Text To Speech的过程,简称TTS技术 中文信息处理领域中的一项前沿技术 涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术 主要解决的问题是将文本状态的文字信

5、息转化为可听的声音信息,语音合成的历史,电子计算机发明以后,语音合成技术得到了飞速的发展,方法也发生了根本性的变化,语音合成技术,语音合成技术,语言合成技术之一 Articulatory Synthesis 根据人类发音机理方式工作的合成方法 模型主要组成部分 声门波发生装置 - 声带 气管-口腔声道腔体模型 嘴唇的辐射模型 主要优缺点 真实的反映了人类发音的整个过程 人类发音过程的模型不够精确,无法得到清晰度高的语音,语音合成技术,语言合成技术之二 Source-filter Synthesis 基于语语音数据信号处理的合成方法 模型主要组成部分 声门波激励源 描述声道模型的滤波器 主要优缺

6、点 合成语音的音质比上一种方法有很大的提高,但是仍然不是很好 可以对合成语音在音色和声调上进行较为灵活的调整,语言合成技术之三 Concatenative Synthesis 利用原始语音片断作为合成单元 关键技术 原始语音片断的获取方法 原始语音片断的挑选方法和拼接算法 主要优缺点 合成语音的音质比上两种方法有质的提高,因为不需要进行大的调整 语料库的录制和制作工作量巨大,同时合成语音的灵活性较低,语音合成技术,输入文本,拼音信息和韵律结构信息,每个单元将取 多个候选 s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元 s1 s2

7、s3 s4 s5 s6,输出语音,InterPhonic系统处理流程,语音合成技术,语言合成技术之四 Trainable TTS 利用HMM模型直接对语谱和韵律进行建模 关键技术 HMM模型对特定人的语音进行建模 良好的合成器对预测出来的语谱和韵律参数进行合成 主要优缺点 合成语句自然流畅,普适性好 能够容易的模拟各种不同的说话人,不同情感,不同语气 因为采用合成器进行语音的合成,清晰度难以提高,语音合成技术,语音合成技术,语言合成技术之五 多模态语音合成 将语音合成与嘴唇,脸部运动结合起来 关键技术 对语音内容和嘴唇运动以及脸部运动进行同步 利用三维模型或者是图像录像进行脸部图像的生成 主要

8、适用场合 可视聊天等各种沟通方式中(例如于msn,QQ等结合) 电子游戏,娱乐服务中 智能计算机的人机界面,休息五分钟,语音合成,分类: 语种:普通话、粤语、英语、日语 嵌入式识别、桌面应用、服务器级应用 难点: 语音的多变性 信息从少到多,文本分析 方法: 波音拼接:单样本-多样本-Corpus-Based(讯飞) 参数合成:源-滤波器模型-PSOLA-HMM-Based Trainable TTS (讯飞) 融合:小尺度(5ms)样本拼接,参数样本挑选(讯飞) 基于发音器官模型的语音合成 水平: 在新闻播报风格上超过一般人水平,达到4.3分(讯飞) 但对于具有表现力和感情的合成,以及自由说

9、话,还存在较多问题(讯飞),大语料库合成系统,粤语合成系统 中文男声系统 纯英文语音合成系统,STOP,STOP,STOP,STOP,嵌入式合成系统,嵌入式合成系统可以广泛的应用在各种手机,PDA,芯片环境中,在容量和运算量受限的情况下,需要能够合成高自然度的语音。 主要研究方向包括 小型化高精度的前端文本分析 基于听感量化思想的大语料库单元裁减算法 伸缩性非常强的多层单元压缩算法 压缩性能好,调整能力强的语音合成器,听感量化嵌入式系统 嵌入式纯中文系统原型,STOP,STOP,Trainable TTS,Trainable TTS 基于HMM对语音进行建模,并通过训练得到合成所需的参数预测模

10、型 基本不需要人工干预的情况下自动、快速地进行系统构建 合成语音具有很高的自然度 音质相比拼接合成有较大的差距,中文女声系统 中文男声系统 纯英文语音合成系统,STOP,STOP,STOP,声音转换(Voice Conversion),功能:从一个人的声音转换为另一个人声音 用途: 模仿(娱乐、军工) 分类: 到特定人、到特定类(男女,老中少,方言)、声音改变 实时转换、语音合成后续模块、在线训练 难点: 参数合成,音质不理想 训练数据多少都不合适 超音色特点难以实现 方法: 高斯混合模型和码本映射相结合(IBM、自动化所) 基于支持向量回归的声音转换(吉林大学) HMM-Based Voic

11、e Conversion(讯飞) 新方向:Average Model (讯飞) 水平: 高质量的声音数据达到50句以上、朗读风格,效果达到满意程度(讯飞) 方言还不理想(讯飞),Voice Conversion/Morphing,音色转换: 在已有语音合成系统基础上模拟各种发音人说话; 使合成系统具有快速适应能力,根据用户的需要提供个性化语音合成服务 扩展语音服务在信息服务以外领域的功能(如娱乐),Voice Conversion/Morphing,音色转换: 根据有限的目标说话人语音数据,采用模型自适应技术对参数预测模型进行说话人自适应 在非常少(1句话)的目标数据基础上,都可以进行合成系统

12、的说话人转换。,燕平 胡郁 50句 燕平 刘庆峰 50句 燕平 刘庆峰 5句 燕平 刘庆峰 1句,STOP,STOP,STOP,STOP,Trainable TTS & Voice Conversion,有些知识分子一生坎坷,除客观原因外,有没有主观因素呢。,Intonation & Emotion TTS,Intonation和EmotionTTS 在现在陈述语气合成的基础上实现感叹,疑问,强调的效果 在正常情绪合成的基础上增强系统在高兴,生气,悲伤等多种情绪方面的表现能力 感叹疑问演示文本:没错!现在资金这么紧缺!你还想扩大生产规模?你说这件事情令人担忧?我觉得完全不会;,Intonati

13、on & Emotion TTS,我们现在进行的情感语音方面的研究主要包括以下几个方面的内容: 情感语料库的设计与录制; 情感语音韵律模型的研究,主要是研究情感语音中基频、时长等韵律参数相对于中立语音的变化规律,实现情感语音的韵律预测; 语音声源参数分析方面的工作,研究发音人在表达不同情感时声源参数对应的“音质”(Voice Quality)特征的变化规律; 情感语音合成系统的建立,包括采用参数调整、Voice Conversion方法等。,中立合成 情感合成 高兴 生气 难过,语音识别技术,即Automatic Speech Recognition过程,简称ASR技术 主要解决将语音信息转化

14、为文本状态的文字信息的问题 可以分为以下几个方面的技术 说话人鉴别 孤立词识别 连续语音识别,语音识别技术回顾,语音识别的历史,相对语音合成,语音识别更加困难,在电子计算机发明以前,很难进行这方面的工作,语音识别的复杂性 孤立词/连续语音?Isolated or Continuous speech 认人/不认人?Speaker-dependent or Independent 小词汇量/大词汇量?Small or large vocabulary 安静环境/噪杂环境?Environment robustness 一般信道/电话信道?Channel adaptability,语音识别技术,语音输

15、入,结果输出,判 决,比 较,特征提取,模 板,最基本的孤立字识别系统,语音识别技术,现代语音识别系统组成 前端处理(特征参数提取) 最大限度地冗余信息的剔出, 和最大限度地语音的区别特征的保留,同时具有ROBUST。例:LPC,LSP,DFT,MFCC。 模型的建立与学习(生学模型、语言模型) 声学模型建立与学习:模板,HMM。 语言模型建立与学习:词 BI-GRAM,TRI-GRAM,POS BI-GRAM, 有监督学习和无监督学习 自适应学习:OFF LINE 有监督与无监督,ON LINE 无监督 识别(分类) 最佳路径搜索,决策最可能的结果 识别方法的有效性(运算量与最优性的矛盾),

16、ROBUST性,语音识别技术,现代语音识别系统系统构成图,语音识别技术,隐马尔可夫模型(HMM),语音识别技术,电话语音识别技术 电话信道环境下的非特定人连续语音识别 考虑到电话信道特性,噪音,话机的差别等因素的语音识别ROBUST问题的研究 电话信道环境下的非特定人连续语音识别数据库的建立,语音识别技术,安徽炫铃20次实际拨打记录分析,拨打时间:2005-5-12 20次拨打,识别动作436次,产生声音296句占67.58,人声171句占39.04 171句人声,语法内句子22.22 语法内正确识别率60.53%,嵌入式语音识别,现有ASR的技术应用,近年来ASR核心研究的前进步伐放慢,性能几乎饱和 现有系统鲁棒性还比较差 使用时需要用户很好配合 在噪声背景下,识别性能下降明显,现有的信号处理方法收效甚微

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号