智能语音及人工智能技术简介

上传人:206****923 文档编号:46671273 上传时间:2018-06-27 格式:PDF 页数:77 大小:6.01MB
返回 下载 相关 举报
智能语音及人工智能技术简介_第1页
第1页 / 共77页
智能语音及人工智能技术简介_第2页
第2页 / 共77页
智能语音及人工智能技术简介_第3页
第3页 / 共77页
智能语音及人工智能技术简介_第4页
第4页 / 共77页
智能语音及人工智能技术简介_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《智能语音及人工智能技术简介》由会员分享,可在线阅读,更多相关《智能语音及人工智能技术简介(77页珍藏版)》请在金锄头文库上搜索。

1、智能语音及人工智能技术简介内容提要一、智能语音及人工智能简介二、智能语音技术原理及进展三、讯飞超脑的全新技术布局我们这个时代的关键词 移动互联网和穿戴式语音交互设备时代的到来我们这个时代的关键词 大数据、云计算、个性化 数据中心、云存储、多机同步 随时在线、随时在网 个性化的广告、新闻、服务、主页,机器不断适应你我们这个时代的关键词 人机交互变革、自然交互、语音交互5月25日,科大讯飞携手京东发布了首款支 持语音交互的智能云音箱DingDong我们这个时代的关键词 人工智能成为新一代研究热点 美国和欧洲将“大脑图谱”设定为继“人类基因图谱” 之后最重要的信息生物跨界研究项目,在将来的10年内

2、将给与数十亿美金的持续支持 国际IT产业巨头相继推出实用化的人工智能系统奥巴马政府推动“大脑活动图谱计划”欧盟“人类大脑项目” Watson智能答题系统谷歌无人驾驶汽车科大讯飞的历史使命7为了少年儿童的快乐成长、开心学习为了中华民族的信息安全和文化传播为了人类之间、人机之间的信息沟通无障碍讯飞核心技术布局教育学习语音交互安全音乐语音评测 手写图文 自然语言 哈工大实验室声纹语种 关键词检索 人脸图像唱歌评测 音乐搜索语音交互教育学习语音听写 语音转写 声学前端 语音合成 多语种 机器翻译 清华实验室讯飞核心技术创新之路合成认知智能评测识别NLP19992002200520112014名 次代表

3、机构不同方言对测试结果排名P1P2P3P4P5P6P7P8P91科大讯飞1113112112麻省理工学院林 肯实验室2322221233捷克布尔诺科技 大学 0 0,0,3,2,0,0;0,1,2,1,1,0; 1 特征目标模式识别简介神经元感知器人工神经网络及其训练算法多层感知器能够解决线性不可分问题,而1986年多层感知器能够解决线性不可分问题,而1986年Geoffrey Hinton等人提出的等人提出的BP算法使得神经网络迅速升温BP算法使得神经网络迅速升温声学模型识别任务30 用“帧”去扫描语谱:帧长25毫秒,帧移10毫秒 基于模式识别判断每一个“帧”,应该是哪个音素silongsi

4、lzhguo从语音帧中识别出音素31X24 X23 X22 X1 x0FFT后的 语谱图Mel域滤 波器组代表帧的 特征向量送入神经网络分 类器得到结果噪声对识别(语谱图)的干扰中国中国噪音噪音带噪语音带噪语音蒙上了一层 噪音谱如果噪音 更大信道对识别(语谱图)的干扰如果噪音 更大不同的频响 函数,严重 影响频谱头戴式 麦克风笔记本 麦克风头戴式 麦克风笔记本 麦克风天下没有两句相同的录音深度神经网络(DNN)34像素边界部件人脸识别Geoffrey Hinton科大讯飞2012年即实现了第一个版本的DNN, 2013年推出第一个基于DNN的中文语音识别系统DNN规模到底有多大?某个讯飞语音云

5、的上线模型语音识别DNN的规模已达深度1个输入层+6个隐层+1个输出层节点数25*(2*5+1)+2000*6+9000参数个数275*2000+2000*2000*5+2000*9000,约107个参数训练样本数2万小时,1010个样本超过700台服务器的异构神经网络超算平台讯飞已有超算和大数据平台GPUCPU存储内存3000颗4PB40TB400片 为基于大数据和深度学习的语音识别研究提供强有力支撑 一万小时语音数据上的训练,100个CPU+8卡GPU,10天左右 训练平台累计提速300倍以上! Bottleneck的妙处:将部分神经网络看做特征提 取和优化的有效手段DNN技术继续演进(一

6、)DNN大模型也可以针对用户音色进行个性化定制!DNN技术继续演进(二)DNN技术继续演进(三) RNN:前一时刻隐层节点的输出作为当前时刻该隐层的输 入,让网络具有一定的历史记忆能力!没有记忆就没有智能!语言模型| 静寂段| 语音段| 静寂段| 静寂段|zhong1guo2| 静寂段| 静寂段| 中国| 静寂段| 端点检测 声学模型 语言模型语言模型 类似于 拼音输入法,且是整句输入模式语言模型 N-gram策略 P(飞|讯)= 0.01 P(飞|科 大 讯)= 0.9 . 基于Ngram框架建模 8万词词典+4gram模型 模型规模为50亿ngram语言模型 文本语料类型和规模 已有新闻、

7、微博、短信、UE、百科、小说等数据 ,总文本数据规模达2T,持续下载中 语料清洗:空空如也 空空如野 领域定制 医疗、教育、安全等领域定制语言模型 用RNN语言模型来解决n-gram的局限 坐 了 一天 的 车 做 了 一天 的 车42你简单的说了一句话的同时 请陈玮炜今天上午11:15拿着mp3录音笔到我办公室 5秒的录音,开始说话就同步传到了讯飞语音云 500帧的数据,依次送入超大规模的DNN获得音素后验概率, 按需找出该用户的个性化声纹模型(如果有的话) 同时,不断监测你有没有说话结束(一般停止说话0.5秒后启 动二遍解码) 调用超大规模语言模型,还按需挂上个性化的语言模型模型( 陈玮炜

8、) 同时支持中英文识别的声学模型和语言模型(mp3) 对识别结果做后处理,如时间的转换(十一点十五分 = 11:15) 所有工作必须在你说完的1秒内出识别结果 将你的语音保存并索引好,以便后续积累足够多数据构建新的 个性化模型43更多的语音识别应用场景近场的语音听写人与人之间自由语音交流语音转写多人对话 长篇大论 句不成句 情绪波动 远场的语音交互声学前端空间混响 背景噪声 人声干扰 音源回声 远场语音识别技术回声:Echo人声干扰:Interference背景噪声:Background Noise混响:ReverberationNoiseOther People麦克风阵列基本原理拾音波束区域

9、抑制区域抑制区域环境噪 声反射声目标直 达声麦克风 阵列麦克风阵列录音设备: 每个说话人方向形成一个拾音波束未分离语音:三路离语音:参会人1参会人2参会人3麦克风阵列用于会议语音分离5m范围内识别率和近讲效果相当305070901804办公室2108会议室302会议室2002办公室5m距离听写识别率突破90%单麦克麦克风阵列手机近讲远场语音识别技术语音转写进展 语音转写:2014年向世界级难题挺进,电话转写已 突破80%,2015年重点攻关,计划发力记者采访、 会议记录和教育微客81.284.5505560657075808590通用识别重点说话人识别电话转写识别率(%)2014年初2014年

10、终场景最新识别率采用麦克风阵 列方案后电视访谈91%-教育(微课)86%-记者采访85%90%政府会议72%85%教育(课堂)70%80%50什么是语音什么是语音语音识别技术语音识别技术语音合成技术语音合成技术语音合成技术 语音合成:将文本状态的文字信息转化为可听的声音信 息,即Text To Speech的过程,简称TTS技术 涉及声学、语言学、数字信号处理、多媒体等技术基于波形拼接的方法基于参数合成的方法 基本思路:录音拼接,简单!如:希望合成“科大讯飞”,取以下录音片段 科学技术是第一大的生产力 大家都不要讨论别人的是非 聆听世界的讯息特点:音质好,但是某些音可能跳错误拼接正确拼接基于波

11、形拼接的方法基于参数合成的方法 基本思路:参数预测语音生成(合成器),算是在 模拟嘴巴!如:希望合成“科大讯飞”,计算机首先学习得到每 个声韵母的合成参数,然后送入合成器合成特点:效果稳定、太稳定,音质有些不足 语音合成系统最关键的是自然度综合指标:年份1995年1998年1999年2001年2011年自然度 “动感地带动感地带“. select ?ret where ?ret “18“. select ?ret where ?ret “本地本地“. select ?ret where ?ret “国内国内“. 答:动感地带网聊套餐(w300) 在本地拨打国内,加拨17951, 每分 钟0.4

12、0元;不加拨17951,每6秒 0.07元。语义理解查询 生成答案生成知识工程技术路线人工神经网络技术路线 分布式的语义表达,解决传统方法语义孤岛问题语义示例: “皇帝” “王后” + “男人” = “女人”已经在语言模型和问答系统上取得阶段性成果中英、汉维口语翻译技术领先 科大讯飞2014年10月首次参加国际口语机器翻译评测大赛,在中 英、英中口语翻译任务均获得第一名 IWSLT是国际上最具学术影响力的口语机器翻译评测 自2004年起每年举行一次,2014年第11届评测包括了15种语言与英 语之间的互译 口语翻译语料来自全球著名的TED演讲的真实语音和文本05101520中到英翻译科大讯飞日

13、本NICT美国MIT香港科大BLEU0510152025英到中翻译科大讯飞德国KIT香港科大蒙特利尔大学BLEU其他参赛单位:美国麻省理工学院(MIT)、日本国家通信技术研究所(NICT)、香港科技大学(HKUST)、加拿 大蒙特利尔大学、德国卡尔斯鲁尔理工学院(KIT)、英国爱丁堡大学(University of Edinburgh)等 纸笔考试作文自动评分独家布局全学科智能阅卷篇章层面研究最新进展作 文 自 动 评 分 特 征字迹工整度词汇丰富性局部通顺性句法正确性篇章结构立意文采物理特征内容深度表示作文长度、段落数OCR 概率词汇的丰富性、词频、词汇的等级N-gram语言模型、N-gra

14、m词性序列模型是否有语病修辞手法、名人名言(包括谚语)连贯性、整体性、篇章结构中心思想是否集中、是否离题语义的分布式表示任务类型人机相关度专家之间相关度中考英语纸笔考试作文评分0.930.92大学英语四六级考试作文评分0.870.83高考作文纸笔考试评分0.940.96在2015年合肥及安庆普通高中学生学业水平测试中验证,语文和英语的机器评分vs.专家评分的胜出率均75:25正在牵头国家863重点攻关项目,按检验人类智力水平的高 考来检验机器的人工智能水平。目标:类人答题系统综合测 试指标达到中学生群体测试指标的前20%863首席科学家 胡郁博士牵头863“基于大数据的类人智能”机器智能健康医

15、疗咨询个人定制手机全能助理自动智能客服自动阅卷&类人答题讯飞超脑的应用及其展望产学研一体化研发体系加拿大约克大学清华大学哈尔滨工业大学 西北工业大学社科院语言所新疆大学内蒙古大学 西藏大学云南大学中国民委语文翻译局科大讯飞合作项目联合实验室美国佐治亚理工学院加拿大国家研究委员会中科院自动化研究所复旦大学北京科技大学中央民族大学讯飞研究院用正确的方法,做有用的研究! 从市场中来,到产品中去! 研究即实践!72用正确的方法,做有用的研究!73从市场中来,到产品中去!74研究即实践!60.2%75.3%2011年1月 基于上线数据 首次更新55.8%2010年8月 语音云 内测版上线78.8%2010年10月28日 语音云正式发布81.2%2011年8月 基于上线数据 第三次更新83.2%2011年4月 超大规模语言模型技术 第二次更新2011年10月 复杂DT及TANDEM 技术 第四次更新在核心技术还不成熟的 时候,他传播的也不够广。 但是随着闭环优化系统开始 不断发挥作用,当更多的人 在使用这个技术的以后,系 统的误差会逐步变小。而当 应用逐步传递到足够大的用 户群的时候,系统的误差已 经被优化到很小的程度,可 以满足大部分的使用需求。利用“涟漪效益”来改进核心技术讯飞公司的文化感谢聆听从市场中来,到产品中去! 用正确的方法,做有用的研究!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号