《机器学习简介》PPT课件.ppt

上传人:xt****7 文档编号:124216094 上传时间:2020-03-11 格式:PPT 页数:34 大小:2.35MB
返回 下载 相关 举报
《机器学习简介》PPT课件.ppt_第1页
第1页 / 共34页
《机器学习简介》PPT课件.ppt_第2页
第2页 / 共34页
《机器学习简介》PPT课件.ppt_第3页
第3页 / 共34页
《机器学习简介》PPT课件.ppt_第4页
第4页 / 共34页
《机器学习简介》PPT课件.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《《机器学习简介》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《机器学习简介》PPT课件.ppt(34页珍藏版)》请在金锄头文库上搜索。

1、机器学习简介 2018 03 15 中国电子科技集团第三十二研究所 主讲 瞿刚 目录 机器学习的定义 机器学习的发展历史和现状 机器学习的分类 机器学习的常见算法 机器学习的基本过程 机器学习的示例 机器学习的常见应用 流行的开源机器学习框架 Spark MLlib介绍 机器学习的定义1 在维基百科上 对机器学以下几种定义 n 机器学习是一门人工智能的科学 该领域的主要研究对象是人工智能 特别 是如何在经验学习中改善具体算法的性能 n 机器学习是对能通过经验自动改进的计算机算法的研究 n 机器学习是用数据或以往的经验 以此优化计算机程序的性能标准 机器学习的定义1 三个关键词 算法 经验 性能

2、 机器学习是数据通过算法构建出模型并对模型进行评估 评估的性能如果达 到要求就拿这个模型来测试其他的数据 如果达不到要求就调整算法来重新建立 模型 再次进行评估 如此循环往复 最终获得满意的经验来处理其他的数据 机器学习的发展历史2 机器学习是人工智能应用研究比较重要的分支 它的发展过程大体上 可分为4个阶段 n 第一阶段是在50年代中叶到60年代中叶 属于热烈时期 n 第二阶段在60年代中叶至70年代中叶 被称为机器学习的冷静时期 n 第三阶段从70年代中叶至80年代中叶 称为复兴时期 n 机器学习的最新阶段始于1986年 一方面 由于神经网络研究的重新兴起 另一方面 对实验研究和应用研究得

3、到前所未有的重视 我国的机器学习研究 开始进入稳步发展和逐渐繁荣的新时期 机器学习的发展现状3 n 在搜索引擎方面Google的成功 使得Internet搜索引擎成为新兴产业 机器 学习技术正在支撑着各类搜索引擎 n DARPA 美国国防先进研究项目局 于2003年开始启动5年期PAL计划 这是 一个以机器学的计划 涉及到AI的其他分支 如知识表示和推理 自 然语言处理等 n 汽车自动驾驶 机器学习的主要任务是从立体视觉中学习如何行驶 根据观察 人类的驾驶行为记录各种图像和操纵指令 并将它们进行正确分类 n 在对天文物体进行分类 计算机系统性能预测 信用卡盗用检测 邮政服务属 性识别 网络文档

4、自动分类等方面 机器学习也在快速发展壮大 机器学习的分类4 n 监督学习 n 无监督学习 n 半监督学习 n 强化学习 机器学习的分类 监督学习4 n 监督学习是从给定的训练数据集中学习一个函数 模型 当新的数据到来时 可以根据这个函数 模型 预测结果 n 在监督式学习下 输入数据被称为 训练数据 每组训练数据有一个明确的 标识或结果 如 对防垃圾邮件系统中 垃圾邮件 非垃圾邮件 n 在建立模型时 监督式学习建立一个学习过程 将预测结果与 测试数据 的 实际结果进行比较 不断调整预测模型 直到模型的预测结果达到一个预期的 准确率 常见的监督学习算法包括回归分析和统计分类 机器学习的分类 无监督

5、学习4 n 在无监督式学习中 数据并不被特别标识 学习模型是为了推断出数据的一些 内在结构 n 常见的应用场景包括关联规则的学习以及聚类等 常见算法包括Apriori算法 和k Means算法 n 监督学习和无监督学习的区别 训练集目标是否被标注 他们都有训练集 且 都有输入和输出 机器学习的分类 半监督学习4 n 半监督学习是介于监督学习与无监督学习之间一种机器学习方式 主要考虑如 何利用少量的标注样本和大量的未标注样本进行训练和分类的问题 n 应用场景包括分类和回归 算法包括一些对常用监督式学习算法的延伸 这些 算法首先试图对未标识数据进行建模 在此基础上再对标识的数据进行预测 如图论推理

6、算法 Graph Inference 或者拉普拉斯支持向量机 Laplacian SVM 等 n 半监督学习从诞生以来 主要用于处理人工合成数据 无噪声干扰的样本数据 是当前大部分半监督学习方法使用的数据 而在实际生活中用到的数据却大部 分不是无干扰的 通常都比较难以得到纯样本数据 机器学习的分类 强化学习4 n 强化学习通过观察来学习动作的完成 每个动作都会对环境有所影响 学习对 象根据观察到的周围环境的反馈来做出判断 n 在强化学习下 输入数据直接反馈到模型 模型必须对此立刻做出调整 n 常见的应用场景包括动态系统以及机器人控制等 常见算法包括Q Learning 以及时间差学习 Temp

7、oral difference learning 机器学习的分类 总结4 n 在企业数据应用的场景下 人们最常用的可能就是监督式学习和无监督式学习 的模型 n 在图像识别等领域 由于存在大量的非标识的数据和少量的可标识数据 目前 半监督式学习是一个很热的话题 n 强化学习更多地应用在机器人控制及其他需要进行系统控制的领域 机器学习的常见算法5 n 回归算法 监督学习 n 神经网络 监督学习 n SVM支持向量机 监督学习 n 聚类算法 无监督学习 n 降维算法 无监督学习 n 推荐算法 特殊 n 其他算法 常见算法 回归算法5 n 回归算法有两个重要的子类 即线性回归和逻辑回归 n 线性回归就

8、是如何拟合出一条直线最佳匹配所有的数据 逻辑回归是一种与线 性回归非常类似的算法 n 线性回归处理的问题类型与逻辑回归不一致 A 线性回归处理的是数值问题 也就是最后预测出的结果是数字 例如房价 B 逻辑回归属于分类算法 也就是说 逻辑回归预测结果是离散的分类 例如 判断这封邮件是否是垃圾邮件 以及用户是否会点击此广告等等 常见算法 回归算法5 n假设有一组肿瘤患者的数据 这些患者的肿瘤中有些是良性的 图中的蓝色点 有些是恶性的 图中的红 色点 这里肿瘤的红蓝色可以被称作数据的 标签 同时每个数据包括两个 特征 患者的年龄与 肿瘤的大小 我们将这两个特征与标签映射到这个二维空间上 形成了上图的

9、数据 n当有一个绿色的点时 该判断这个肿瘤是恶性的还是良性的呢 根据红蓝点我们训练出了一个逻辑回归 模型 也就是图中的分类线 这时 根据绿点出现在分类线的左侧 因此我们判断它的标签应该是红色 也就是说属于恶性肿瘤 n逻辑回归算法划出的分类线基本都是线性的 也有划出非线性分类线的逻辑回归 不过那样的模型在处理 数据量较大的时候效率会很低 这意味着当两类之间的界线不是线性时 逻辑回归的表达能力就不足 常见算法 神经网络5 n 神经网络 也称之为人工神经网络 ANN 的诞生起源于对大脑工作机理的研 究 早期生物界学者们使用神经网络来模拟大脑 后来 机器学习的学者们使 用神经网络进行机器学习的实验 发

10、现在视觉与语音的识别上效果都相当好 n 神经网络算法是80年代机器学习界非常流行的算法 不过 进入90年代 神 经网络的发展进入了一个瓶颈期 其主要原因是神经网络的训练过程很困难 n 现在 携着 深度学习 之势 神经网络重装归来 重新成为最强大的机器学 习算法之一 常见算法 神经网络5 n 比方说 一个正方形 分解为四个折线进入视觉处理的下一层中 四个神经元 分别处理一个折线 每个折线再继续被分解为两条直线 每条直线再被分解为 黑白两个面 于是 一个复杂的图像变成了大量的细节进入神经元 神经元处 理以后再进行整合 最后得出了看到的是正方形的结论 这就是大脑视觉识别 的机理 也是神经网络工作的机

11、理 常见算法 SVM支持向量机5 n SVM算法是诞生于统计学习界 同时在机器学习界大放光彩的经典算法 n 从某种意义上来说 支持向量机算法是逻辑回归算法的强化 通过给予逻辑回 归算法更严格的优化条件 支持向量机算法可以获得比逻辑回归更好的分类界 线 n 支持向量机是一种数学成分很浓的机器学习算法 相对的 神经网络则有生物 科学成分 通过支持向量机算法 既可以保持计算效率 又可以获得非常好 的分类效果 因此支持向量机在90年代后期一直占据着机器学习中最核心的 地位 基本取代了神经网络算法 直到现在神经网络借着深度学习重新兴起 两者之间才又发生了微妙的平衡转变 常见算法 SVM支持向量机5 n

12、通过跟高斯函数的结合 支持向量机可以表达出非常复杂的分类界线 从而达 成很好的分类效果 比如 可以将低维的空间映射到高维的空间 n 如何在二维平面划分出一个圆形的分类界线 在二维平面可能会很困难 但是 通过高斯函数可以将二维空间映射到三维空间 然后使用一个线性平面就可以 达成类似效果 常见算法 聚类算法5 n 聚类算法是无监督学习算法中最典型的代表 n 聚类算法就是计算种群中的距离 根据距离的远近将数据划分为多个族群 n 聚类算法中最典型的代表就是K Means算法 常见算法 降维算法5 n 降维算法也是一种无监督学习算法 主要特征是将数据从高维降低到低维 维 度表示数据的特征量的大小 例如

13、房价包含房子的长 宽 面积与房间数量 四个特征 也就是维度为4维的数据 可以看出来 长与宽事实上与面积表示 的信息重叠了 例如面积 长 宽 通过降维算法 可以去除冗余信息 将 特征减少为面积与房间数量两个特征 即从4维的数据压缩到2维 这样 不 仅利于表示 同时提高计算的性能 n 降维算法的主要作用是压缩数据与提升机器学习的效率 通过降维算法 可以 将具有几千个特征的数据压缩至若干个特征 另外 降维算法的另一个好处是 数据的可视化 例如将5维的数据压缩至2维 然后可以用二维平面来可视 降维算法的主要代表是PCA算法 即主成分分析算法 常见算法 推荐算法5 n 推荐算法是目前业界非常火的一种算法

14、 如亚马逊 天猫 京东等都在广泛地 运用 推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西 从 而增加购买率 提升效益 常见算法 推荐算法5 n 推荐算法有两个主要的类别 A 一类是基于物品内容的推荐 是将与用户购买的内容近似的物品推荐给用户 这样的前提 是每个物品都得有若干个标签 因此才可以找出与用户购买物品类似的物品 这样推荐的 好处是关联程度较大 B 另一类是基于用户相似度的推荐 则是将与目标用户兴趣 注 用户画像 相同的其他用 户购买的东西推荐给目标用户 例如小A历史上买了物品B和C 经过算法分析 发现另一 个与小A近似的用户小D购买了物品E 于是将物品E推荐给小A n 两类

15、推荐都有各自的优缺点 在一般的电商应用中 一般是两类混合使用 推 荐算法中最有名的算法就是协同过滤算法 常见算法 其他算法5 n 除了以上算法之外 机器学习界还有其他的如高斯判别 朴素贝叶斯 决策树 等等算法 但是上面列的六个算法是使用最多 影响最广 种类最全的典型 机器学习界的一个特色就是算法众多 发展百花齐放 n 除了这些算法以外 有一些算法的名字在机器学习领域中也经常出现 但他们 本身并不算是一个机器学习算法 而是为了解决某个子问题而诞生的 可以理 解他们为以上算法的子算法 用于大幅度提高训练过程 其中的代表有 梯度 下降法 主要运用在线性回归 逻辑回归 神经网络 推荐算法中 牛顿法 主

16、要运用在线性回归中 BP算法 主要运用在神经网络中 SMO算法 主要 运用在SVM中 机器学习的基本过程6 n 计算机从给定的数据中学习规律 即从观测数据 样本 中寻找规律 建立模 型 并利用学习到的规律 模型 对未知或无法观测的数据进行预测 机器学习的操作流程7 n 操作流程主要分7步 A 数据导入 B 数据预处理 C 特征工程 D 拆分 E 训练模型 F 评估模型 G 预测新数据 机器学习示例8 n 预测美国某大学某人是否是终身教授 机器学习的常见应用9 n 机器学习已广泛应用于数据挖掘 计算机视觉 自然语言处理 生物特征识别 搜索引擎 医学诊断 检测信用卡欺诈 证券市场分析 DNA序列测序 语音和手写识别 战略游戏和机器人等领域 流行的开源机器学习框架 11 TensorFlow是谷歌基于C 开发 发布的第二代机器 学习系统 开发目的是用于进行机器学习和深度神经 网络的研究 目前Google 的Google App 的语音识 别 Gmail 的自动回复功能 Google Photos 的图片 搜索等都在使用 TensorFlow GitHub项目地址 Scikit

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号