机器学习PPT幻灯片课件

资源描述

《机器学习PPT幻灯片课件》由会员分享，可在线阅读，更多相关《机器学习PPT幻灯片课件（133页珍藏版）》请在金锄头文库上搜索。

1、机器学习 1 什么是机器学习人工智能大师HerbSimon这样定义学习学习系统在不断重复的工作中对本身能力的增强或改进使得系统在下一次执行相同任务或类似任务指的是具有相同分布的任务时比现在做的更好或效率更高机器学习通过经验提高系统自身的性能的过程系统自我改进 2 机器学习的重要性机器学习是人工智能的主要核心研究领域之一也是现代智能系统的关键环节和瓶颈很难想象一个没有学习功能的系统是能被称为是具有智能的系统 3 4 5 6 信息检索 InformationRetrieval 7 8 9 10 5 11 机器学习的任务令W是这个给定世界的有限或无限所有对象的集合由于

2、观察能力的限制我们只能获得这个世界的一个有限的子集Q W 称为样本集机器学习就是根据这个有限样本集Q 推算这个世界的模型使得其对这个世界为真 12 机器学习的三要素一致性假设机器学习的条件样本空间划分决定模型对样本集合的有效性泛化能力决定模型对世界的有效性 13 要素1 一致性假设假设世界W与样本集Q具有某种相同的性质原则上说存在各种各样的一致性假设在统计意义下一般假设 W与Q具有同分布或给定世界W的所有对象独立同分布 14 要素2 对样本空间的划分样本集合模型将样本集放到一个n维空间寻找一个超平面等价关系使得问题决定的不同对象被划分在不相交的区域 1

3、5 要素3 泛化能力泛化能力学习的目的是学到隐含在数据对背后的规律对具有同一规律的学习集以外的数据该神经网络仍具有正确的响应能力称为泛化能力通过机器学习方法从给定有限样本集合计算一个模型泛化能力是这个模型对世界为真程度的指标 16 关于三要素不同时期研究的侧重点不同划分早期研究主要集中在该要素上泛化能力在多项式划分 80年代以来的近期研究一致性假设未来必须考虑 Transferlearning 17 Transferlearning Transferlearning这一概念是由DARPA 美国国防高级研究计划局在2005年正式提出来的一项研究计划 TransferL

4、earning是指系统能够将在先前任务中学到的知识或技能应用于一个新的任务或新的领域 18 传统机器学习转移学习 19 TransferLearning 举一反三我们人类也具有这样的能力比如我们学会了国际象棋就可以将下棋的方法应用于跳棋或者说学起跳棋来会更容易一些学会了C 可以把它的一些思想用在学习Java中再比如某人原来是学物理的后来学习计算机时总习惯把物理中的某些思想和概念用于计算机科学中用我们通俗的话总结就是传统机器学习种瓜得瓜种豆得豆迁移学习举一反三 20 机器学习是多学科的交叉 21 机器学习学科 1983年 R S Michalski等人撰写机器学习

5、通往人工智能的途径一书1986年 MachineLearning杂志创刊1997年以TomMitchell的经典教科书 machinelearning 中都没有贯穿始终的基础体系只不个是不同方法和技术的罗列机器学习还非常年轻很不成熟 22 机器学习的分类传统上大致可分为4类归纳学习解释学习遗传学习 GA 连接学习神经网络 23 归纳学习是从某一概念的分类例子集出发归纳出一般的概念描述这是目前研究得最多的学习方法其学习目的是为了获得新的概念构造新的规则或发现新的理论这种方法要求大量的训练例而且归纳性能受到描述语言概念类型信噪比实例空间分布归纳模式等的影响 24

6、解释学习分析学习是从完善的领域理论出发演绎出有助于更有效地利用领域理论的规则其学习目的是提高系统性能而不是修改领域理论它与归纳学习相反只需要少量的训练例但要求有完善的领域理论而且学习效果也与例子表示形式学习方法正例学习或反例学习概括程度等有关 25 机器学习面临的挑战随着应用的不断深入出现了很多被传统机器学习研究忽视但非常重要的问题下面将以医疗和金融为代表来举几个例子机器学习正与众多学科领域产生了交叉交叉领域越多问题也越多也正是大有可为处 26 例子1 代价敏感问题医疗以癌症诊断为例将病人误诊为健康人的代价与将健康人误诊为病人的代价是不同的

7、金融以信用卡盗用检测为例将盗用误认为正常使用的代价与将正常使用误认为盗用的代价是不同的传统的ML技术基本上只考虑同一代价如何处理代价敏感性在教科书中找不到现成的答案 27 例子2 不平衡数据问题医疗以癌症诊断为例健康人样本远远多于病人样本金融以信用卡盗用检测为例正常使用样本远远多于被盗用样本传统的ML技术基本上只考虑平衡数据如何处理数据不平衡性在教科书中找不到现成的答案 28 例子3 可理解性问题医疗以乳腺癌诊断为例需要向病人解释为什么做出这样的诊断金融以信用卡盗用检测为例需要向保安部门解释为什么这是正在被盗用的卡传统的ML技术基本上

8、只考虑泛化不考虑理解如何处理可理解性在教科书中找不到现成的答案 29 机器学习的最新进展算法驱动建模与数据分析应用驱动 30 算法驱动海量非线性数据 108 10 算法的泛化能力考虑学习结果数据的解释代价加权的处理方法不同数据类型的学习方法 31 应用驱动自然语言分析网络与电信数据分析图像数据分析金融与经济数据分析零售业数据分析情报分析 Web信息的有效获取新一代搜索引擎由此导致各种学习任务数据流学习多实例学习部分放弃独立同分布条件 Ranking学习蛋白质功能分析 DNA数据分析它们需要使用各种不同方法解决实际问题 32 应用驱动机器学习流形机器学习半

9、监督机器学习多实例机器学习Ranking机器学习数据流机器学习图模型机器学习 33 流形机器学习高维数据的低维表示流形 manifold 就是一般的几何对象的总称比如人有中国人美国人等等流形就包括各种维数的曲线曲面等和一般的降维分析一样流形学习把一组在高维空间中的数据在低维空间中重新表示比如在基于内容的图像检索中当特征向量的维数非常高时建立图像特征库时的存储高维特征的空间复杂度和度量图像之间相似性的运算复杂度都将非常的高线性方法 PCA PrincipalComponentAnalysis ICA IndependentComponentAnalysis 非线性方法 L

10、LE LocallinearEmbeding Roweis Science 2000 Isomap Tenenbaum Science 2000 34 比较常用的降维算法比如PCA 是针对线性分布的高维数据进行降维的算法并且有局部最优的问题而LLE LocalLinearEmbedding 算法则针对于非线性数据在这个例子里用LLE进行降维成功的体现了数据内在的局部分布结构而用PCA映射则会将高维空间里的远点映射到低维空间后变成了近邻点 35 半监督机器学习半监督的学习有少量训练样本学习机以从训练样本获得的知识为基础结合测试样本的分布情况逐步修正已有知识并判断测试样本的类别

11、 36 多示例机器学习传统的机器学习中一个对象有一个描述而在一些实际问题中一个对象可能同时有多个描述到底哪个描述是决定对象性质例如类别的却并不知道解决这种对象描述类别之间1 N 1关系的学习就是多示例学习 37 Ranking机器学习其原始说法是learningforranking问题主要来自信息检索假设用户的需求不能简单地表示为喜欢或不喜欢而需要将喜欢表示为一个顺序问题是如何通过学习获得关于这个喜欢顺序的模型 38 39 数据流机器学习在网络数据分析与处理中有一类问题从一个用户节点上流过的数据大多数是无意义的由于数据量极大不能全部

12、存储因此只能简单判断流过的文件是否有用而无法细致分析如何学习一个模型可以完成这个任务同时可以增量学习以保证可以从数据流中不断改善或适应用户需求的模型 40 研究现状主要以任务为驱动力学习方法有待创新以上这些机器学习方式还处于实验观察阶段缺乏坚实的理论基础实际应用效果仍有待研究 41 当前机器学习所面临情况是数据复杂海量用户需求多样化从而要求 1 需要科学和高效的问题表示以便将其学习建立在科学的基础上 2 应用驱动成为必然从而针对某个或某类应用给出特定的学习方法将不断涌现 3 对机器学习的检验问题只能在应用中检验自己 4 对机器学习的结果的解释将逐渐受到重视

13、42 现在我们逐一讨论几种比较常用的学习算法 43 7 3机械学习机械学习 RoteLearning 又称为记忆学习或死记硬背式的学习这种学习方法直接记忆或存储环境提供的新知识并在以后通过对知识库的检索来直接使用这些知识而不再需要进行任何的计算和推导 44 机械学习是一种基本的学习过程虽然它没有足够的能力独立完成智能学习但存储对于任何智能型的程序来说都是必要的和基本的记忆学习是任何学习系统的一部分任何学习系统都要将它所获取的知识存储在知识库中以便使用这些知识 45 机械学习的过程执行机构每解决一个问题系统就记住这个问题和它的解简单的机械学习模型 f 存储输入输出

14、知识联想对执行单元 46 例子汽车修理成本估算系统输入有关待修理汽车的描述包括制造厂家出厂日期车型汽车损坏的部位以及它的损坏程度输出该汽车的修理成本 47 例子汽车修理成本估算系统为了进行估算系统必须在其知识库中查找同一厂家同一出厂日期同一车型同样损坏情况的汽车然后把知识库中对应的数据作为修理成本的估算数据输出给用户如果在系统的知识库中没有找到这样的汽车则系统将请求用户给出大致的费用并进行确认系统则会将该车的描述和经过确认的估算费用存储到知识库中以便将来查找使用 48 数据化简级别图莱纳特 Lenat 海斯罗思 HayesRoth 和克拉尔 Klah

15、r 等人于1979年提出可以把机械学习看成是数据化简分级中的第一级机械学习与计算归纳和推理之间的关系如下图所示 49 存储计算推导归纳算法与理论机械记忆搜索规则可以在大量病例的基础上归纳总结出治疗的一般规律形成规则当遇见个新病例时就使用规则去处理它而不必再重新推断解决办法提高了工作效率在机械学习中我们忽略计算过程只记忆计算的输入输出这样就把计算问题化简成另外存储问题数据化简级别图例如第一次解一个一元二次方程的时候必须使用很长的一段推导才能得出解方程的求根公式但是一旦有了求根公式以后再解一元二次方程时就不必重复以前的推导过程可以直接使用求根

16、公式计算出根这样就把推导问题简化成计算问题 50 机械学习要注意的问题存储组织信息如何存储使得检索时间计算时间环境的稳定性和存储信息的适应性存储与计算之间的权衡存储空间检索时间vs计算时间只存储最常使用信息忘记不常使用信息 51 7 5类比学习类比学习是利用二个不同领域源域目标域中的知识相似性可以通过类比从源域的知识包括相似的特征和其它性质推导出目标域的相应知识从而实现学习例如 1 一个从未开过truck的司机只要他有开car的知识就可完成开truck的任务 2 若把某个人比喻为很像消防车则可通过观察消防车的行为推断出这个人的性格所以类比学习系统可以使一个已有的计算机应用系统转变为适应于新的领域来完成原先没有设计的相类似的功能 52 类比推理类比推理是在两个相似域之间进行的源域S 已经认识的域目标域T 当前尚未完全完全认识的域推理目的从S中选出与当前问题最近似的问题及其求解方法以解决当前的问题或者建立起目标域中已有命题间的联系形成新知识 53 类比推理过程回忆与联想选择从找出的相似情况中选出与当前情况最相似的情况及其知识建

展开阅读全文