机器学习精ppt课件

上传人:资****亨 文档编号:135510884 上传时间:2020-06-16 格式:PPT 页数:52 大小:4.18MB
返回 下载 相关 举报
机器学习精ppt课件_第1页
第1页 / 共52页
机器学习精ppt课件_第2页
第2页 / 共52页
机器学习精ppt课件_第3页
第3页 / 共52页
机器学习精ppt课件_第4页
第4页 / 共52页
机器学习精ppt课件_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《机器学习精ppt课件》由会员分享,可在线阅读,更多相关《机器学习精ppt课件(52页珍藏版)》请在金锄头文库上搜索。

1、 1 机器学习 MachineLearning 李成伟 2 目录 一大数据与云计算二机器学习 深度学习和人工智能三编程语言的选择四机器学习算法介绍五算法案例介绍 3 一大数据与云计算 4 5 什么是大数据 6 大数据特征定义 7 大数据时代要具备大数据思维 维克托 迈尔 舍恩伯格认为 1 需要全部数据样本而不是抽样 2 关注效率而不是精确度 3 关注相关性而不是因果关系 大数据并不在 大 而在于 有用 价值含量 挖掘成本比数量更为重要 8 大数据的价值所在 如果把大数据比作一种产业 那么这种产业实现盈利的关键 在于提高对数据的 加工能力 通过 加工 实现数据的 增值 未来在大数据领域最具有价值

2、的是两种事物 1 拥有大数据思维的人 这种人可以将大数据的潜在价值转化为实际利益 2 还未有被大数据触及过的业务领域 这些是还未被挖掘的油井 金矿 是所谓的蓝海 9 云计算和大数据的关系 云计算充当了工业革命时期的发动机的角色 而大数据则是电 云计算思想 把计算能力作为一种像水和电一样的公用事业提供给用户 10 二机器学习 深度学习和人工智能 11 任何通过数据训练的学习算法的相关研究都属于机器学习 比如线性回归 LinearRegression K均值 K means 基于原型的目标函数聚类方法 决策树 DecisionTrees 运用概率分析的一种图解法 随机森林 RandomForest

3、 运用概率分析的一种图解法 PCA PrincipalComponentAnalysis 主成分分析 SVM SupportVectorMachine 支持向量机 以及ANN ArtificialNeuralNetworks 人工神经网络 深度学习的概念源于人工神经网络的研究 通过组合低层特征形成更加抽象的高层表示属性类别或特征 以发现数据的分布式特征表示 深度学习是机器学习研究中的一个新的领域 其动机在于建立 模拟人脑进行分析学习的神经网络 它模仿人脑的机制来解释数据 例如图像 声音和文本 人工智能企图了解智能的实质 并生产出一种新的能以人类智能相似的方式做出反应的智能机器 该领域的研究包括

4、语音识别 图像识别 机器人 自然语言处理 智能搜索和专家系统等 12 人工智能与机器学习 深度学习的关系 13 三编程语言的选择 14 15 PK R与Python语言的区别 学习难度大 入门简单 适合处理大量数据 功能强大 命令式编程 统计功能强大 16 17 Python在线学习推荐 菜鸟教程 18 Anaconda 初学Python 入门机器学习的首选 NumPy Scipy TensorFlow Matplotlib Pandas Scikit Learn 19 四机器学习算法介绍 20 拥抱人工智能从机器学习开始 21 机器学习最大的特点是利用数据而不是指令来进行各种工作 其学习过程

5、主要包括 数据的特征提取 数据预处理 训练模型 测试模型 模型评估改进等几部分 22 机器学习算法是使计算机具有智能的关键 算法是通过使用已知的输入和输出以某种方式 训练 以对特定输入进行响应 代表着用系统的方法描述解决问题的策略机制 人工智能的发展离不开机器学习算法的不断进步 23 机器学习算法分类 24 1 线性回归 找到一条直线来预测目标值一个简单的场景 已知房屋价格与尺寸的历史数据 问面积为2000时 售价为多少 25 26 线性回归的应用 预测客户终生价值 基于老客户历史数据与客户生命周期的关联关系 建立线性回归模型 预测新客户的终生价值 进而开展针对性的活动 机场客流量分布预测 以

6、海量机场WiFi数据及安检登机值机数据 通过数据算法实现机场航站楼客流分析与预测 货币基金资金流入流出预测 通过用户基本信息数据 用户申购赎回数据 收益率表和银行间拆借利率等信息 对用户的申购赎回数据的把握 精准预测未来每日的资金流入流出情况 电影票房预测 依据历史票房数据 影评数据 舆情数据等互联网公众数据 对电影票房进行预测 27 2 逻辑回归 找到一条直线来分类数据逻辑回归虽然名字叫回归 却是属于分类算法 是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中 预估事件出现的概率并分类 逻辑回归从直观上来说是画出了一条分类线 位于分类线一侧的数据 概率 0 5 属于分类A 位

7、于分类线另一侧的数据 概率 0 5 属于分类B 28 3 K 近邻 用距离度量最相邻的分类标签一个简单的场景 已知一个电影中的打斗和接吻镜头数 判断它是属于爱情片还是动作片 当接吻镜头数较多时 根据经验我们判断它为爱情片 那么计算机如何进行判别呢 29 4 朴素贝叶斯 选择后验概率最大的类为分类标签一个简单的场景 一号碗 C1 有30颗水果糖和10颗巧克力糖 二号碗 C2 有水果糖和巧克力糖各20颗 现在随机选择一个碗 从中摸出一颗糖 发现是水果糖 问这颗水果糖 X 最有可能来自哪个碗 30 例如上面的例子中 P X 水果糖的概率为5 8P X C1 一号碗中水果糖的概率为3 4P X C2

8、二号碗中水果糖的概率为2 4P C1 P C2 两个碗被选中的概率相同 为1 2则水果糖来自一号碗的概率为 P C1 X P X C1 P C1 P X 3 4 1 2 5 8 3 5水果糖来自二号碗的概率为 P C2 X P X C2 P C2 P X 2 4 1 2 5 8 2 5P C1 X P C2 X 因此这颗糖最有可能来自一号碗 朴素贝叶斯的主要应用有文本分类 垃圾文本过滤 情感判别 多分类实时预测等 31 5 决策树 构造熵值下降最快的分类树一个简单的场景 相亲时 可能首先检测相亲对方是否有时间 如果有 则考虑进一步接触 再观察其是否有上进心 如果没有 直接SayGoodbye

9、如果有 则在看帅不帅 帅的可以列入候选名单 决策树可以应于 用户分级评估 贷款风险评估 选股 投标决策等 32 6 支持向量机 SVM 构造超平面 分类非线性数据一个简单的场景 要求用一根线将不同颜色的球分开 要求尽量在放更多球之后 仍然适用 A B两条线都可以满足条件 再继续增加球 线A仍可以将球很好的分开 而线B则不可以 33 进一步增加难度 当球没有明确的分界线 用一条直线已经无法将球分开 该怎么解决 SVM可应用于垃圾邮件识别 手写识别 文本分类 选股等 34 7 K means 计算质心 聚类无标签数据在上面介绍的分类算法中 需要被分类的数据集已经有标记 例如数据集已经标记为 或者

10、通过学习出假设函数对这两类数据进行划分 而对于没有标记的数据集 希望能有一种算法能够自动的将相同元素分为紧密关系的子集或簇 这就是聚类算法 35 8 关联分析 挖掘啤酒与尿布 频繁项集 的关联规则算法中几个相关的概念 频繁项集 在数据库中大量频繁出现的数据集合 例如购物单数据中 啤酒 尿布 啤酒 尿布 出现的次数都比较多 关联规则 由集合A 可以在某置信度下推出集合B 即如果A发生了 那么B也很有可能会发生 例如购买了 尿布 的人很可能会购买 啤酒 支持度 指某频繁项集在整个数据集中的比例 假设数据集有10条记录 包含 啤酒 尿布 的有5条记录 那么 啤酒 尿布 的支持度就是5 10 0 5

11、置信度 有关联规则如 尿布 啤酒 它的置信度为 尿布 啤酒 假设 尿布 啤酒 的支持度为0 45 尿布 的支持度为0 5 则 尿布 啤酒 的置信度为0 45 0 5 0 9 36 9 PCA降维 减少数据维度 降低数据复杂度降维是指将原高维空间中的数据点映射到低维度的空间中 因为高维特征的数目巨大 距离计算困难 分类器的性能会随着特征数的增加而下降 减少高维的冗余信息所造成的误差 可以提高识别的精度 37 10 人工神经网络 逐层抽象 逼近任意函数前面介绍了九种传统的机器学习算法 现在介绍一下深度学习的基础 人工神经网络 它是模拟人脑神经网络而设计的模型 由多个节点 人工神经元 相互联结而成

12、可以用来对数据之间的复杂关系进行建模 38 例如利用单层神经网络实现逻辑与门和同或门 39 多层神经网络的每一层神经元学习到的是前一层神经元值的更抽象的表示 通过抽取更抽象的特征来对事物进行区分 从而获得更好的区分与分类能力 40 11 深度学习 赋予人工智能以璀璨的未来深度学习就是一种基于对数据进行表征学习的方法 使用多层网络 能够学习抽象概念 同时融入自我学习 逐步从大量的样本中逐层抽象出相关的概念 然后做出理解 最终做出判断和决策 通过构建具有一定 深度 的模型 可以让模型来自动学习好的特征表示 从底层特征 到中层特征 再到高层特征 从而最终提升预测或识别的准确性 41 深度学习的历史变

13、迁 深度学习经历了三次浪潮 20世纪40年代 60年年代 深度学习的雏形出现在控制论中 20世界80年代 90年代 深度学习表现为联结主义 2006年以后 正式以深度学习之名复兴 第一次浪潮 以感知机和线性模型为代表不能解决与或问题第二次浪潮 以多层感知机和BP模型为代表以统计学为基础 应用核函数和图模型的支持向量机算法 SVM算法 等各种浅层有监督的机器学习模型广泛应用 且深度神经网络不可训练第三次浪潮 以无监督学习为代表 解决了深层神经网络的计算能力问题 解决了深度神经网络后向误差反馈梯度消失的问题 42 最初 人工神经网络中神经元之间的连接数受限于硬件能力 而现在 神经元之间的连接数大多

14、是出于设计考虑 一些人工神经网络中每个神经元的连接数与猫一样多 并且对于其他神经网络来说 每个神经元的连接数与较小哺乳动物 如小鼠 一样多 这种情况是非常普遍的 甚至人类大脑每个神经元的连接数也没有过高的数量 1 自适应线性单元 WidrowandHoff 1960 2 神经认知机 Fukushima 1980 3 GPU 加速卷积网络 Chellapillaetal 2006 4 深度玻尔兹曼机 SalakhutdinovandHinton 2009a 5 无监督卷积网络 Jarrettetal 2009b 6 GPU 加速多层感知机 Ciresanetal 2010 7 分布式自编码器 L

15、eetal 2012 8 Multi GPU卷积网络 Krizhevskyetal 2012a 9 COTSHPC无监督卷积网络 Coatesetal 2013 10 GoogLeNet Szegedyetal 2014a 与日俱增的每个神经元的连接数 43 自从引入隐藏单元 人工神经网络的规模大约每2 4年翻一倍 1 感知机 Rosenblatt 1958 1962 2 自适应线性单元 WidrowandHoff 1960 3 神经认知机 Fukushima 1980 4 早期后向传播网络 Rumelhartetal 1986b 5 用于语音识别的循环神经网络 RobinsonandFall

16、side 1991 6 用于语音识别的多层感知机 Bengioetal 1991 7 均匀场sigmoid信念网络 Sauletal 1996 8 LeNet5 LeCunetal 1998c 9 回声状态网络 JaegerandHaas 2004 10 深度信念网络 Hintonetal 2006a 11 GPU 加速卷积网络 Chellapillaetal 2006 12 深度玻尔兹曼机 SalakhutdinovandHinton 2009a 13 GPU加速深度信念网络 Rainaetal 2009a 14 无监督卷积网络 Jarrettetal 2009b 15 GPU 加速多层感知机 Ciresanetal 2010 16 OMP 1网络 CoatesandNg 2011 17 分布式自编码器 Leetal 2012 18 MultiGPU卷积网络 Krizhevskyetal 2012a 19 COTSHPC无监督卷积网络 Coatesetal 2013 20 GoogLeNet Szegedyetal 2014a 与日俱增的神经网络规模 44 目前深度学习的应用十分广泛

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号