智能语音及人工智能技术简介

资源描述

《智能语音及人工智能技术简介》由会员分享，可在线阅读，更多相关《智能语音及人工智能技术简介（77页珍藏版）》请在金锄头文库上搜索。

1、智能语音及人工智能技术简介内容提要一、智能语音及人工智能简介二、智能语音技术原理及进展三、讯飞超脑的全新技术布局我们这个时代的关键词移动互联网和穿戴式语音交互设备时代的到来我们这个时代的关键词大数据、云计算、个性化数据中心、云存储、多机同步随时在线、随时在网个性化的广告、新闻、服务、主页，机器不断适应你我们这个时代的关键词人机交互变革、自然交互、语音交互5月25日,科大讯飞携手京东发布了首款支持语音交互的智能云音箱DingDong我们这个时代的关键词人工智能成为新一代研究热点美国和欧洲将“大脑图谱”设定为继“人类基因图谱” 之后最重要的信息生物跨界研究项目，在将来的10年内

2、将给与数十亿美金的持续支持国际IT产业巨头相继推出实用化的人工智能系统奥巴马政府推动“大脑活动图谱计划”欧盟“人类大脑项目” Watson智能答题系统谷歌无人驾驶汽车科大讯飞的历史使命7为了少年儿童的快乐成长、开心学习为了中华民族的信息安全和文化传播为了人类之间、人机之间的信息沟通无障碍讯飞核心技术布局教育学习语音交互安全音乐语音评测手写图文自然语言哈工大实验室声纹语种关键词检索人脸图像唱歌评测音乐搜索语音交互教育学习语音听写语音转写声学前端语音合成多语种机器翻译清华实验室讯飞核心技术创新之路合成认知智能评测识别NLP19992002200520112014名次代表

3、机构不同方言对测试结果排名P1P2P3P4P5P6P7P8P91科大讯飞1113112112麻省理工学院林肯实验室2322221233捷克布尔诺科技大学 0 0,0,3,2,0,0；0,1,2,1,1,0; 1 特征目标模式识别简介神经元感知器人工神经网络及其训练算法多层感知器能够解决线性不可分问题，而1986年多层感知器能够解决线性不可分问题，而1986年Geoffrey Hinton等人提出的等人提出的BP算法使得神经网络迅速升温BP算法使得神经网络迅速升温声学模型识别任务30 用“帧”去扫描语谱：帧长25毫秒，帧移10毫秒基于模式识别判断每一个“帧”，应该是哪个音素silongsi

4、lzhguo从语音帧中识别出音素31X24 X23 X22 X1 x0FFT后的语谱图Mel域滤波器组代表帧的特征向量送入神经网络分类器得到结果噪声对识别（语谱图）的干扰中国中国噪音噪音带噪语音带噪语音蒙上了一层噪音谱如果噪音更大信道对识别（语谱图）的干扰如果噪音更大不同的频响函数，严重影响频谱头戴式麦克风笔记本麦克风头戴式麦克风笔记本麦克风天下没有两句相同的录音深度神经网络（DNN）34像素边界部件人脸识别Geoffrey Hinton科大讯飞2012年即实现了第一个版本的DNN， 2013年推出第一个基于DNN的中文语音识别系统DNN规模到底有多大？某个讯飞语音云

5、的上线模型语音识别DNN的规模已达深度1个输入层+6个隐层+1个输出层节点数25*（2*5+1）+2000*6+9000参数个数275*2000+2000*2000*5+2000*9000，约107个参数训练样本数2万小时，1010个样本超过700台服务器的异构神经网络超算平台讯飞已有超算和大数据平台GPUCPU存储内存3000颗4PB40TB400片为基于大数据和深度学习的语音识别研究提供强有力支撑一万小时语音数据上的训练，100个CPU+8卡GPU，10天左右训练平台累计提速300倍以上！ Bottleneck的妙处：将部分神经网络看做特征提取和优化的有效手段DNN技术继续演进（一

6、）DNN大模型也可以针对用户音色进行个性化定制！DNN技术继续演进（二）DNN技术继续演进（三） RNN：前一时刻隐层节点的输出作为当前时刻该隐层的输入，让网络具有一定的历史记忆能力！没有记忆就没有智能！语言模型| 静寂段| 语音段| 静寂段| 静寂段|zhong1guo2| 静寂段| 静寂段| 中国| 静寂段| 端点检测声学模型语言模型语言模型类似于拼音输入法，且是整句输入模式语言模型 N-gram策略 P（飞|讯）= 0.01 P（飞|科大讯）= 0.9 . 基于Ngram框架建模 8万词词典+4gram模型模型规模为50亿ngram语言模型文本语料类型和规模已有新闻、

7、微博、短信、UE、百科、小说等数据，总文本数据规模达2T，持续下载中语料清洗：空空如也空空如野领域定制医疗、教育、安全等领域定制语言模型用RNN语言模型来解决n-gram的局限坐了一天的车做了一天的车42你简单的说了一句话的同时请陈玮炜今天上午11：15拿着mp3录音笔到我办公室 5秒的录音，开始说话就同步传到了讯飞语音云 500帧的数据，依次送入超大规模的DNN获得音素后验概率，按需找出该用户的个性化声纹模型（如果有的话）同时，不断监测你有没有说话结束（一般停止说话0.5秒后启动二遍解码）调用超大规模语言模型，还按需挂上个性化的语言模型模型（陈玮炜

8、）同时支持中英文识别的声学模型和语言模型（mp3）对识别结果做后处理，如时间的转换（十一点十五分 = 11:15）所有工作必须在你说完的1秒内出识别结果将你的语音保存并索引好，以便后续积累足够多数据构建新的个性化模型43更多的语音识别应用场景近场的语音听写人与人之间自由语音交流语音转写多人对话长篇大论句不成句情绪波动远场的语音交互声学前端空间混响背景噪声人声干扰音源回声远场语音识别技术回声：Echo人声干扰：Interference背景噪声：Background Noise混响：ReverberationNoiseOther People麦克风阵列基本原理拾音波束区域

9、抑制区域抑制区域环境噪声反射声目标直达声麦克风阵列麦克风阵列录音设备：每个说话人方向形成一个拾音波束未分离语音：三路离语音：参会人1参会人2参会人3麦克风阵列用于会议语音分离5m范围内识别率和近讲效果相当305070901804办公室2108会议室302会议室2002办公室5m距离听写识别率突破90%单麦克麦克风阵列手机近讲远场语音识别技术语音转写进展语音转写：2014年向世界级难题挺进，电话转写已突破80%，2015年重点攻关，计划发力记者采访、会议记录和教育微客81.284.5505560657075808590通用识别重点说话人识别电话转写识别率(%)2014年初2014年

10、终场景最新识别率采用麦克风阵列方案后电视访谈91%-教育(微课)86%-记者采访85%90%政府会议72%85%教育(课堂)70%80%50什么是语音什么是语音语音识别技术语音识别技术语音合成技术语音合成技术语音合成技术语音合成：将文本状态的文字信息转化为可听的声音信息，即Text To Speech的过程,简称TTS技术涉及声学、语言学、数字信号处理、多媒体等技术基于波形拼接的方法基于参数合成的方法基本思路：录音拼接，简单！如：希望合成“科大讯飞”，取以下录音片段科学技术是第一大的生产力大家都不要讨论别人的是非聆听世界的讯息特点：音质好，但是某些音可能跳错误拼接正确拼接基于波

11、形拼接的方法基于参数合成的方法基本思路：参数预测语音生成（合成器），算是在模拟嘴巴！如：希望合成“科大讯飞”，计算机首先学习得到每个声韵母的合成参数，然后送入合成器合成特点：效果稳定、太稳定，音质有些不足语音合成系统最关键的是自然度综合指标：年份1995年1998年1999年2001年2011年自然度 “动感地带动感地带“. select ?ret where ?ret “18“. select ?ret where ?ret “本地本地“. select ?ret where ?ret “国内国内“. 答：动感地带网聊套餐（w300）在本地拨打国内,加拨17951, 每分钟0.4

12、0元；不加拨17951，每6秒 0.07元。语义理解查询生成答案生成知识工程技术路线人工神经网络技术路线分布式的语义表达，解决传统方法语义孤岛问题语义示例: “皇帝” “王后” + “男人” = “女人”已经在语言模型和问答系统上取得阶段性成果中英、汉维口语翻译技术领先科大讯飞2014年10月首次参加国际口语机器翻译评测大赛，在中英、英中口语翻译任务均获得第一名 IWSLT是国际上最具学术影响力的口语机器翻译评测自2004年起每年举行一次，2014年第11届评测包括了15种语言与英语之间的互译口语翻译语料来自全球著名的TED演讲的真实语音和文本05101520中到英翻译科大讯飞日

13、本NICT美国MIT香港科大BLEU0510152025英到中翻译科大讯飞德国KIT香港科大蒙特利尔大学BLEU其他参赛单位：美国麻省理工学院（MIT）、日本国家通信技术研究所（NICT）、香港科技大学（HKUST）、加拿大蒙特利尔大学、德国卡尔斯鲁尔理工学院（KIT）、英国爱丁堡大学（University of Edinburgh）等纸笔考试作文自动评分独家布局全学科智能阅卷篇章层面研究最新进展作文自动评分特征字迹工整度词汇丰富性局部通顺性句法正确性篇章结构立意文采物理特征内容深度表示作文长度、段落数OCR 概率词汇的丰富性、词频、词汇的等级N-gram语言模型、N-gra

14、m词性序列模型是否有语病修辞手法、名人名言（包括谚语）连贯性、整体性、篇章结构中心思想是否集中、是否离题语义的分布式表示任务类型人机相关度专家之间相关度中考英语纸笔考试作文评分0.930.92大学英语四六级考试作文评分0.870.83高考作文纸笔考试评分0.940.96在2015年合肥及安庆普通高中学生学业水平测试中验证，语文和英语的机器评分vs.专家评分的胜出率均75：25正在牵头国家863重点攻关项目，按检验人类智力水平的高考来检验机器的人工智能水平。目标：类人答题系统综合测试指标达到中学生群体测试指标的前20%863首席科学家胡郁博士牵头863“基于大数据的类人智能”机器智能健康医

15、疗咨询个人定制手机全能助理自动智能客服自动阅卷&类人答题讯飞超脑的应用及其展望产学研一体化研发体系加拿大约克大学清华大学哈尔滨工业大学西北工业大学社科院语言所新疆大学内蒙古大学西藏大学云南大学中国民委语文翻译局科大讯飞合作项目联合实验室美国佐治亚理工学院加拿大国家研究委员会中科院自动化研究所复旦大学北京科技大学中央民族大学讯飞研究院用正确的方法，做有用的研究！从市场中来，到产品中去！研究即实践！72用正确的方法，做有用的研究！73从市场中来，到产品中去！74研究即实践！60.2%75.3%2011年1月基于上线数据首次更新55.8%2010年8月语音云内测版上线78.8%2010年10月28日语音云正式发布81.2%2011年8月基于上线数据第三次更新83.2%2011年4月超大规模语言模型技术第二次更新2011年10月复杂DT及TANDEM 技术第四次更新在核心技术还不成熟的时候，他传播的也不够广。但是随着闭环优化系统开始不断发挥作用，当更多的人在使用这个技术的以后，系统的误差会逐步变小。而当应用逐步传递到足够大的用户群的时候，系统的误差已经被优化到很小的程度，可以满足大部分的使用需求。利用“涟漪效益”来改进核心技术讯飞公司的文化感谢聆听从市场中来，到产品中去! 用正确的方法，做有用的研究!

展开阅读全文