大数据时代的机器学习剖析

上传人:今*** 文档编号:107464104 上传时间:2019-10-19 格式:PPT 页数:52 大小:5.98MB
返回 下载 相关 举报
大数据时代的机器学习剖析_第1页
第1页 / 共52页
大数据时代的机器学习剖析_第2页
第2页 / 共52页
大数据时代的机器学习剖析_第3页
第3页 / 共52页
大数据时代的机器学习剖析_第4页
第4页 / 共52页
大数据时代的机器学习剖析_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《大数据时代的机器学习剖析》由会员分享,可在线阅读,更多相关《大数据时代的机器学习剖析(52页珍藏版)》请在金锄头文库上搜索。

1、2014年5月16日,吴恩达加入百度,担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。,Geoffrey Hinton:Deep Learning开山祖师爷,多伦多大学教授,“Google大脑”的负责人,Facebook人工智能实验室主任、NYU数据科学中心创始人、深度学习界的泰斗Yann LeCun,Machine Learning, What it is and why it matters?,输入:身高、体重 输出:漂亮、一般 X=165,46 h(X)=1 X=154,66 h(X)=0 X=162,52 h(X)=?,Machine Learnin

2、g, What it is and why it matters?,Machine Learning, What it is and why it matters?,Machine Learning, What it is and why it matters?,Machine Learning, What it is and why it matters?,Machine Learning, What it is and why it matters?,模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。在著名的Pattern Recognition

3、 And Machine Learning这本书中,Christopher M. Bishop在开头是这样说的“模式识别源自工业界,而机器学习来自于计算机学科。不过,它们中的活动可以被视为同一个领域的两个方面,同时在过去的10年间,它们都有了长足的发展”。,数据挖掘=机器学习+数据库。数据挖掘是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每个数据都能挖掘出金子的,所以不要神话它。一个系统绝对不会因为上了一个数据挖掘模块就变得无所不能,一个拥有数据挖掘思维的人员才是关键,而且他还必须对数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在

4、数据库中的优化。,统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法,就是源自统计学科。但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。,计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如百度识

5、图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的,同时也是研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量。,语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。,自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习

6、等技术。作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。,回归算法:线性回归和逻辑回归。 线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值。 逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如房价。,神经网络:神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验

7、,发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后,神经网络的发展进入了一个热潮。BP算法的发明人之一是前面介绍的机器学习大牛Geoffrey Hinton(图1中的中间者)。,支持向量机(SVM):支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。,支持向量机(SVM):训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。这类算法有一个统称,即无监督算法(前面有标签的数据

8、的算法则是有监督算法)。无监督算法中最典型的代表就是聚类算法。以二维数据为例,某一个数据包含两个特征。我希望通过聚类算法,给他们中不同的种类打上标签,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。 。,降维算法:降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度其实表示的是数据的特征量的大小,通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征,即从高维的数据压缩到低维,如主成分分析,推荐算法:推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们

9、最感兴趣的东西,从而增加购买率,提升效益。,有监督算法:线性回归,逻辑回归,神经网络,SVM 无监督算法:聚类算法,降维算法。 特殊算法:推荐算法。,1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。 2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。 3.流式分析:这个主要指的是事件驱动架构。 4.查询分析:经典代表是NoSQL数据库。,Its not who has the best algorithm that wins . Its who has the most data.,2006年,Geoffrey Hinton在科学杂志Science上发表了一

10、篇文章,论证了两个观点: 1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类; 2.深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。,2006年,Geoffrey Hinton在科学杂志Science上发表了一篇文章,论证了两个观点: 1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类; 2.深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。,2012年6月,纽约时报披露了Google Brain项目,这个项目是由Andrew Ng和Map-Reduce发明人J

11、eff Dean共同主导,用16000个CPU Core的并行计算平台训练一种称为“深层神经网络”的机器学习模型,在语音识别和图像识别等领域获得了巨大的成功。Andrew Ng就是文章开始所介绍的机器学习的大牛。,2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译,以及中文语音合成,效果非常流畅,其中支撑的关键技术是深度学习;。,2013年1月,在百度的年会上,创始人兼CEO李彦宏高调宣布要成立百度研究院,其中第一个重点方向就是深度学习,并为此而成立深度学习研究院(IDL)。,2013年4月,麻省

12、理工学院技术评论杂志将深度学习列为2013年十大突破性技术(Breakthrough Technology)之首。,2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾。2016年3月挑战世界围棋冠军、职业九段选手李世石。根据日程安排,5盘棋将分别于3月9日、10日、12日、13日和15日举行,即使一方率先取得3胜,也会下满5盘。最后以4:1结束了这场“战争”。,THANK YOU!,PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT背景图片: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载:,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号