《机器学习简介》PPT课件.ppt

资源描述

《《机器学习简介》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《机器学习简介》PPT课件.ppt（34页珍藏版）》请在金锄头文库上搜索。

1、机器学习简介 2018 03 15 中国电子科技集团第三十二研究所主讲瞿刚目录机器学习的定义机器学习的发展历史和现状机器学习的分类机器学习的常见算法机器学习的基本过程机器学习的示例机器学习的常见应用流行的开源机器学习框架 Spark MLlib介绍机器学习的定义1 在维基百科上对机器学以下几种定义 n 机器学习是一门人工智能的科学该领域的主要研究对象是人工智能特别是如何在经验学习中改善具体算法的性能 n 机器学习是对能通过经验自动改进的计算机算法的研究 n 机器学习是用数据或以往的经验以此优化计算机程序的性能标准机器学习的定义1 三个关键词算法经验性能

2、机器学习是数据通过算法构建出模型并对模型进行评估评估的性能如果达到要求就拿这个模型来测试其他的数据如果达不到要求就调整算法来重新建立模型再次进行评估如此循环往复最终获得满意的经验来处理其他的数据机器学习的发展历史2 机器学习是人工智能应用研究比较重要的分支它的发展过程大体上可分为4个阶段 n 第一阶段是在50年代中叶到60年代中叶属于热烈时期 n 第二阶段在60年代中叶至70年代中叶被称为机器学习的冷静时期 n 第三阶段从70年代中叶至80年代中叶称为复兴时期 n 机器学习的最新阶段始于1986年一方面由于神经网络研究的重新兴起另一方面对实验研究和应用研究得

3、到前所未有的重视我国的机器学习研究开始进入稳步发展和逐渐繁荣的新时期机器学习的发展现状3 n 在搜索引擎方面Google的成功使得Internet搜索引擎成为新兴产业机器学习技术正在支撑着各类搜索引擎 n DARPA 美国国防先进研究项目局于2003年开始启动5年期PAL计划这是一个以机器学的计划涉及到AI的其他分支如知识表示和推理自然语言处理等 n 汽车自动驾驶机器学习的主要任务是从立体视觉中学习如何行驶根据观察人类的驾驶行为记录各种图像和操纵指令并将它们进行正确分类 n 在对天文物体进行分类计算机系统性能预测信用卡盗用检测邮政服务属性识别网络文档

4、自动分类等方面机器学习也在快速发展壮大机器学习的分类4 n 监督学习 n 无监督学习 n 半监督学习 n 强化学习机器学习的分类监督学习4 n 监督学习是从给定的训练数据集中学习一个函数模型当新的数据到来时可以根据这个函数模型预测结果 n 在监督式学习下输入数据被称为训练数据每组训练数据有一个明确的标识或结果如对防垃圾邮件系统中垃圾邮件非垃圾邮件 n 在建立模型时监督式学习建立一个学习过程将预测结果与测试数据的实际结果进行比较不断调整预测模型直到模型的预测结果达到一个预期的准确率常见的监督学习算法包括回归分析和统计分类机器学习的分类无监督

5、学习4 n 在无监督式学习中数据并不被特别标识学习模型是为了推断出数据的一些内在结构 n 常见的应用场景包括关联规则的学习以及聚类等常见算法包括Apriori算法和k Means算法 n 监督学习和无监督学习的区别训练集目标是否被标注他们都有训练集且都有输入和输出机器学习的分类半监督学习4 n 半监督学习是介于监督学习与无监督学习之间一种机器学习方式主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题 n 应用场景包括分类和回归算法包括一些对常用监督式学习算法的延伸这些算法首先试图对未标识数据进行建模在此基础上再对标识的数据进行预测如图论推理

6、算法 Graph Inference 或者拉普拉斯支持向量机 Laplacian SVM 等 n 半监督学习从诞生以来主要用于处理人工合成数据无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据而在实际生活中用到的数据却大部分不是无干扰的通常都比较难以得到纯样本数据机器学习的分类强化学习4 n 强化学习通过观察来学习动作的完成每个动作都会对环境有所影响学习对象根据观察到的周围环境的反馈来做出判断 n 在强化学习下输入数据直接反馈到模型模型必须对此立刻做出调整 n 常见的应用场景包括动态系统以及机器人控制等常见算法包括Q Learning 以及时间差学习 Temp

7、oral difference learning 机器学习的分类总结4 n 在企业数据应用的场景下人们最常用的可能就是监督式学习和无监督式学习的模型 n 在图像识别等领域由于存在大量的非标识的数据和少量的可标识数据目前半监督式学习是一个很热的话题 n 强化学习更多地应用在机器人控制及其他需要进行系统控制的领域机器学习的常见算法5 n 回归算法监督学习 n 神经网络监督学习 n SVM支持向量机监督学习 n 聚类算法无监督学习 n 降维算法无监督学习 n 推荐算法特殊 n 其他算法常见算法回归算法5 n 回归算法有两个重要的子类即线性回归和逻辑回归 n 线性回归就

8、是如何拟合出一条直线最佳匹配所有的数据逻辑回归是一种与线性回归非常类似的算法 n 线性回归处理的问题类型与逻辑回归不一致 A 线性回归处理的是数值问题也就是最后预测出的结果是数字例如房价 B 逻辑回归属于分类算法也就是说逻辑回归预测结果是离散的分类例如判断这封邮件是否是垃圾邮件以及用户是否会点击此广告等等常见算法回归算法5 n假设有一组肿瘤患者的数据这些患者的肿瘤中有些是良性的图中的蓝色点有些是恶性的图中的红色点这里肿瘤的红蓝色可以被称作数据的标签同时每个数据包括两个特征患者的年龄与肿瘤的大小我们将这两个特征与标签映射到这个二维空间上形成了上图的

9、数据 n当有一个绿色的点时该判断这个肿瘤是恶性的还是良性的呢根据红蓝点我们训练出了一个逻辑回归模型也就是图中的分类线这时根据绿点出现在分类线的左侧因此我们判断它的标签应该是红色也就是说属于恶性肿瘤 n逻辑回归算法划出的分类线基本都是线性的也有划出非线性分类线的逻辑回归不过那样的模型在处理数据量较大的时候效率会很低这意味着当两类之间的界线不是线性时逻辑回归的表达能力就不足常见算法神经网络5 n 神经网络也称之为人工神经网络 ANN 的诞生起源于对大脑工作机理的研究早期生物界学者们使用神经网络来模拟大脑后来机器学习的学者们使用神经网络进行机器学习的实验发

10、现在视觉与语音的识别上效果都相当好 n 神经网络算法是80年代机器学习界非常流行的算法不过进入90年代神经网络的发展进入了一个瓶颈期其主要原因是神经网络的训练过程很困难 n 现在携着深度学习之势神经网络重装归来重新成为最强大的机器学习算法之一常见算法神经网络5 n 比方说一个正方形分解为四个折线进入视觉处理的下一层中四个神经元分别处理一个折线每个折线再继续被分解为两条直线每条直线再被分解为黑白两个面于是一个复杂的图像变成了大量的细节进入神经元神经元处理以后再进行整合最后得出了看到的是正方形的结论这就是大脑视觉识别的机理也是神经网络工作的机

11、理常见算法 SVM支持向量机5 n SVM算法是诞生于统计学习界同时在机器学习界大放光彩的经典算法 n 从某种意义上来说支持向量机算法是逻辑回归算法的强化通过给予逻辑回归算法更严格的优化条件支持向量机算法可以获得比逻辑回归更好的分类界线 n 支持向量机是一种数学成分很浓的机器学习算法相对的神经网络则有生物科学成分通过支持向量机算法既可以保持计算效率又可以获得非常好的分类效果因此支持向量机在90年代后期一直占据着机器学习中最核心的地位基本取代了神经网络算法直到现在神经网络借着深度学习重新兴起两者之间才又发生了微妙的平衡转变常见算法 SVM支持向量机5 n

12、通过跟高斯函数的结合支持向量机可以表达出非常复杂的分类界线从而达成很好的分类效果比如可以将低维的空间映射到高维的空间 n 如何在二维平面划分出一个圆形的分类界线在二维平面可能会很困难但是通过高斯函数可以将二维空间映射到三维空间然后使用一个线性平面就可以达成类似效果常见算法聚类算法5 n 聚类算法是无监督学习算法中最典型的代表 n 聚类算法就是计算种群中的距离根据距离的远近将数据划分为多个族群 n 聚类算法中最典型的代表就是K Means算法常见算法降维算法5 n 降维算法也是一种无监督学习算法主要特征是将数据从高维降低到低维维度表示数据的特征量的大小例如

13、房价包含房子的长宽面积与房间数量四个特征也就是维度为4维的数据可以看出来长与宽事实上与面积表示的信息重叠了例如面积长宽通过降维算法可以去除冗余信息将特征减少为面积与房间数量两个特征即从4维的数据压缩到2维这样不仅利于表示同时提高计算的性能 n 降维算法的主要作用是压缩数据与提升机器学习的效率通过降维算法可以将具有几千个特征的数据压缩至若干个特征另外降维算法的另一个好处是数据的可视化例如将5维的数据压缩至2维然后可以用二维平面来可视降维算法的主要代表是PCA算法即主成分分析算法常见算法推荐算法5 n 推荐算法是目前业界非常火的一种算法

14、如亚马逊天猫京东等都在广泛地运用推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西从而增加购买率提升效益常见算法推荐算法5 n 推荐算法有两个主要的类别 A 一类是基于物品内容的推荐是将与用户购买的内容近似的物品推荐给用户这样的前提是每个物品都得有若干个标签因此才可以找出与用户购买物品类似的物品这样推荐的好处是关联程度较大 B 另一类是基于用户相似度的推荐则是将与目标用户兴趣注用户画像相同的其他用户购买的东西推荐给目标用户例如小A历史上买了物品B和C 经过算法分析发现另一个与小A近似的用户小D购买了物品E 于是将物品E推荐给小A n 两类

15、推荐都有各自的优缺点在一般的电商应用中一般是两类混合使用推荐算法中最有名的算法就是协同过滤算法常见算法其他算法5 n 除了以上算法之外机器学习界还有其他的如高斯判别朴素贝叶斯决策树等等算法但是上面列的六个算法是使用最多影响最广种类最全的典型机器学习界的一个特色就是算法众多发展百花齐放 n 除了这些算法以外有一些算法的名字在机器学习领域中也经常出现但他们本身并不算是一个机器学习算法而是为了解决某个子问题而诞生的可以理解他们为以上算法的子算法用于大幅度提高训练过程其中的代表有梯度下降法主要运用在线性回归逻辑回归神经网络推荐算法中牛顿法主

16、要运用在线性回归中 BP算法主要运用在神经网络中 SMO算法主要运用在SVM中机器学习的基本过程6 n 计算机从给定的数据中学习规律即从观测数据样本中寻找规律建立模型并利用学习到的规律模型对未知或无法观测的数据进行预测机器学习的操作流程7 n 操作流程主要分7步 A 数据导入 B 数据预处理 C 特征工程 D 拆分 E 训练模型 F 评估模型 G 预测新数据机器学习示例8 n 预测美国某大学某人是否是终身教授机器学习的常见应用9 n 机器学习已广泛应用于数据挖掘计算机视觉自然语言处理生物特征识别搜索引擎医学诊断检测信用卡欺诈证券市场分析 DNA序列测序语音和手写识别战略游戏和机器人等领域流行的开源机器学习框架 11 TensorFlow是谷歌基于C 开发发布的第二代机器学习系统开发目的是用于进行机器学习和深度神经网络的研究目前Google 的Google App 的语音识别 Gmail 的自动回复功能 Google Photos 的图片搜索等都在使用 TensorFlow GitHub项目地址 Scikit

展开阅读全文

《机器学习简介》PPT课件.ppt

最新文档