第二课机器学习与人工智能

资源描述

《第二课机器学习与人工智能》由会员分享，可在线阅读，更多相关《第二课机器学习与人工智能（21页珍藏版）》请在金锄头文库上搜索。

1、课程框架 1.什么是机器学习 2.机器学习的定义 3.机器学习的范围 4.机器学习的方法 5.机器学习的应用大数据 6.机器学习的子类深度学习 7.机器学习的父类人工智能,中间的是Geoffrey Hinton, 加拿大多伦多大学的教授，被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授，如今是Facebook人工智能实验室的主任。左边的是Andrew Ng，吴恩达，斯坦福大学副教授，“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛，互联网界大鳄争相聘请。而他们的研究方向，则全部都是机器学习的子类深度学习。,左图时Windows Pho

2、ne上的语音助手Cortana，光环。右图是苹果的siri。他们背后的核心技术是什么？为什么它能够听懂人的语音？这个技术正是机器学习。机器学习是所有语音助手产品能够跟人交互的关键技术。,1、什么是机器学习,经典的“等人问题” 当你跟一个爱迟到的人约会，为了避免浪费过多时间，你会选择什么策略？第一种方法是搜索知识：例如我们常用的百度。但很遗憾，没有人会把如何等人这个问题作为知识传授。第二种是经验法：回忆过往跟小Y相约的经历，看看跟他相约的次数中，迟到占了多大的比例，从而预测他这次迟到的可能性。假设我跟小Y约过5次，他迟到的次数是1次，那么他按时到的比例为80%，我心中的阈值为70%，

3、我认为这次小Y应该不会迟到，因此我按时出门。如果小Y在5次迟到的次数中占了4次，也就是他按时到达的比例为20%，由于这个值低于我的阈值，因此我选择推迟出门的时间。依据数据所做的判断跟机器学习的思想根本上是一致的。,一般的机器学习模型至少考虑两个量：一个是因变量，也就是我们希望预测的结果，在这个例子里就是小Y迟到与否的判断。另一个是自变量，也就是用来预测小Y是否迟到的量。假设我把时间作为自变量，譬如我发现小Y所有迟到的日子基本都是星期五，而在非星期五情况下他基本不迟到。于是我可以建立一个模型，来模拟小Y迟到与否跟日子是否是星期五的概率。,这样的图就是一个最简单的机器学习模型，称之为决策树。再

4、增加一些自变量：小Y的开车技术、当天路况、天气。在这样的情况下，决策树就无法很好地支撑了，因为决策树只能预测离散值。就需要更换模型，例如机器学习中的线型回归来预测。就是机器学习的过程：把所有的自变量和因变量输入，计算机自动生成模型，再根据当前的情况，给出我是否需要迟出门，需要迟几分钟的决策。机器学习方法是计算机利用已有的数据(经验)，得出了某种模型(迟到的规律)，并利用此模型预测未来(是否迟到)的一种方法。,2、机器学习的定义,从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。从实践的意义上来说，机器学习是一种利用数据，训练模型，使用模型预测的

5、一种方法。,房价模型：房价 = 面积 * a + b,3、机器学习的范围,机器学习和模式识别，统计学习，数据挖掘，计算机视觉，语音识别，自然语言处理的关系。从范围上来说，机器学习跟模式识别，统计学习，数据挖掘是类似的；机器学习与其他领域的处理技术的结合，形成了计算机视觉、语音识别、自然语言处理等交叉学科。一般说数据挖掘时，等同于说机器学习。,模式识别范围：模式识别=机器学习。区别：“模式识别源自工业界，而机器学习来自于计算机学科。模式识别是70年代和80年代非常流行的一个术语。它强调的是如何让一个计算机程序去做一些看起来很“智能”的事情，例如识别“3”这个数字，如何区分“3”和“B

6、”或者“3”和“8”。,数据挖掘数据挖掘=机器学习+数据库。数据挖掘仅仅是一种思考方式，告诉我们应该尝试从数据中挖掘出知识，但不是每个数据都能挖掘出金子的，也可能挖出石头。所以说一个系统绝对不会因为装了一个数据挖掘模块就变得无所不能，恰恰相反，一个拥有数据挖掘思维的人员才是关键。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。,统计学习统计学习近似等于机器学习。机器学习中大多数方法来自统计学。例如著名的支持向量机算法，就是源自统计学科。区别：统计学习者重点关注的是统计模型的发展与优化，偏数学；而机器学习者更关注的是能够解决问题，偏实践。,计算机视觉计算机视觉=图像处理+机器学

7、习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入，机器学习则负责从图像中识别出相关的模式。应用：百度识图、手写字符识别、车牌识别。这个领域是应用前景非常火热的，同时也是研究的热门方向。语音识别语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用，一般会结合自然语言处理的相关技术，如siri。自然语言处理自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中，大量使用了编译原理相关的技术，例如词法分析，语法分析等等，除此之外，在理解这个层面，则使用了语义理解，机器学习等技术

8、。作为唯一由人类自身创造的符号，自然语言处理一直是机器学习界不断研究的方向。如微软小冰聊天机器人。百度机器学习专家余凯：“听与看，说白了就是阿猫和阿狗都会的，而只有语言才是人类独有的”。,4、机器学习的方法,1、回归算法，包括线性回归和逻辑回归房价求解问题是线性回归拟合出一条直线最佳匹配所有的数据。一般使用“最小二乘法”来求解。“最小二乘法”：为了尽可能减小我们直线拟合出的值和观测数据的误差，需要使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。“数值计算”是专门用来提升计算机进行各类计算时的准确性和效率问题。例如，著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法，

9、也非常适合来处理求解函数极值的问题。梯度下降法是解决回归模型中最简单且有效的方法之一。逻辑回归与线性回归类似。线性回归处理的是数值问题，也就是最后预测出的结果是数字，例如房价。而逻辑回归属于分类算法，也就是说，逻辑回归预测结果是离散的分类，例如判断这封邮件是否是垃圾邮件，以及用户是否会点击此广告等等。,2、神经网络人工神经网络，ANN算法是80年代机器学习界非常流行的算法，不过在90年代中途衰落。现在，携着“深度学习”之势，神经网络重新成为最强大的机器学习算法之一。神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。神经网络的学习机理：分解与整合。下图的

10、网络，分成输入层，隐藏层，和输出层。输入层负责接收信号，隐藏层负责对数据的分解与处理，最后的结果被整合到输出层。每层中的一个圆代表一个处理单元，可以认为是模拟了一个神经元，若干个处理单元组成了一个层，若干个层再组成了一个网络，也就是”神经网络”。,LeNet基于多个隐层构建的神经网络可以识别多种手写数字，达到很高的识别精度与拥有较好的鲁棒性。,3、SVM（支持向量机）支持向量机是逻辑回归算法的强化：通过给予更严格的优化条件，借助特定的核函数，获得比逻辑回归更好的分类界线。通过跟高斯“核”的结合，支持向量机可以表达出非常复杂的分类界线，从而达成很好的的分类效果。 “核函数”事实上就是一种

11、特殊的函数，最典型的特征就是可以将低维的空间映射到高维的空间。如何在二维平面划分出一个圆形的分类界线？在二维平面可能会很困难，但是通过“核”可以将二维空间映射到三维空间，然后使用一个线性平面就可以达成类似效果。也就是说，二维平面划分出的非线性分类界线可以等价于三维平面的线性分类界线。,4、聚类算法前面的算法中的一个显著特征就是我的训练数据中包含了标签，训练出的模型可以对其他未知数据预测标签。也就是有监督学习。无监督学习的训练数据不含标签，算法的目的是通过训练，推测出这些数据的标签，聚类算法是典型代表。举例：根据距离的远近将数据划分为多个族群。用肉眼可以看出有四个点群，但是怎么通过计算

12、机程序找出这几个点群K-Means,目标是找出有几个种群，同时找出种群的中心点： 1、随机在图中取K（这里K=2）个种子点（灰色）。 2、对图中的所有点求到这K个种子点的距离，A，B属于上面的种子点，C，D，E属于下面中部的种子点。 3、移动种子点到属于他的“点群”的中心，不断重复第2）和第3）步，直到，种子点没有移动，就找到了种群及中心。,5、降维算法主要特征是将数据从高维降低到低维层次。维度是数据的特征量，例如，房价包含房子的长、宽、面积与房间数量四个特征，维度为4维。长与宽事实上与面积表示的信息重叠了，例如面积=长宽。通过降维算法我们就可以去除冗余信息，将特征减少为面积与房间数量两个

13、特征，即从4维的数据压缩到2维。降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法，可以将具有几千个特征的数据压缩至若干个特征。另外，降维算法的另一个好处是数据的可视化，例如将5维的数据压缩至2维，然后可以用二维平面来可视。,6、推荐算法推荐算法在电商界，如亚马逊，天猫，京东有广泛的运用。主要特征是自动向用户推荐他们最感兴趣的东西。推荐算法有两个主要的类别：一类是基于物品内容的推荐，是将与用户购买的内容近似的物品推荐给用户，这样的前提是每个物品都得有若干个标签，因此才可以找出与用户购买物品类似的物品，这样推荐的好处是关联程度较大，但是由于每个物品都需要贴标签，因此

14、工作量较大。另一类是基于用户相似度的推荐，则是将与目标用户兴趣相同的其他用户购买的东西推荐给目标用户，例如小A历史上买了物品B和C，经过算法分析，发现另一个与小A近似的用户小D购买了物品E，于是将物品E推荐给小A。在一般的电商应用中，一般是两类混合使用。最有名的算法就是协同过滤算法。,基于人口统计学的推荐,基于内容的推荐,基于商品的协同过滤推荐,5、机器学习的应用大数据,2010年以前，机器学习的应用在某些特定领域发挥了巨大的作用，如车牌识别，网络攻击防范，手写字符识别等等。 2010年以后，随着大数据概念的兴起，机器学习大量的应用都与大数据高度耦合，几乎可以认为大数据是机器学习应用的最佳

15、场景。,Google利用大数据预测了H1N1在美国某小镇的爆发,百度预测2014年世界杯，从淘汰赛到决赛全部预测正确,机器学习模型的数据越多，机器学习的预测的效率就越好,大数据并不等同于机器学习，机器学习也不等同于大数据。大数据中包含有分布式计算，内存数据库，多维分析等等多种技术。机器学习仅仅是大数据分析中的一种而已。尽管机器学习的一些结果具有很大的魔力，在某种场合下是大数据价值最好的说明。但这并不代表机器学习是大数据下的唯一的分析方法。四种数据分析技术： 1.大数据，小分析：即数据仓库领域的OLAP分析思路，也就是多维分析思想。 2.大数据，大分析：这个代表的就是数据挖掘与机器学习分

16、析法。 3.流式分析：这个主要指的是事件驱动架构。 4.查询分析：经典代表是NoSQL数据库。,6、机器学习的子类深度学习,近来，机器学习的发展产生了一个新的方向，即“深度学习”。深度学习就是传统的神经网络发展到了多隐藏层的情况。自从90年代以后，神经网络已经消寂了一段时间。由于神经网络在隐藏层扩大到两个以上，其训练速度就会非常慢，因此实用性一直低于支持向量机。2006年，Geoffrey Hinton在科学杂志Science上发表了一篇文章，论证了两个观点： 1.多隐层的神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类； 2.深度神经网络在训练上的难度，可以通过“逐层初始化” 来有效克服。具有多个隐藏层的神经网络被称为深度神经网络，基于深度神经网络的学习研究称之为深度学习。,7、机器学习的父类人工智能,Artificial Intelligence，简称AI 50年代就提出的老概念，各种小说、电影都在以各种方式展现对于人工智能的想象。但事实上，自从50年代以后，人工智能的发展并没有取得足

展开阅读全文

第二课 机器学习与 人工 智能

最新文档

第二课机器学习与人工智能