机器学习精ppt课件－金锄头文库

资源描述

《机器学习精ppt课件》由会员分享，可在线阅读，更多相关《机器学习精ppt课件（52页珍藏版）》请在金锄头文库上搜索。

1、 1 机器学习 MachineLearning 李成伟 2 目录一大数据与云计算二机器学习深度学习和人工智能三编程语言的选择四机器学习算法介绍五算法案例介绍 3 一大数据与云计算 4 5 什么是大数据 6 大数据特征定义 7 大数据时代要具备大数据思维维克托迈尔舍恩伯格认为 1 需要全部数据样本而不是抽样 2 关注效率而不是精确度 3 关注相关性而不是因果关系大数据并不在大而在于有用价值含量挖掘成本比数量更为重要 8 大数据的价值所在如果把大数据比作一种产业那么这种产业实现盈利的关键在于提高对数据的加工能力通过加工实现数据的增值未来在大数据领域最具有价值

2、的是两种事物 1 拥有大数据思维的人这种人可以将大数据的潜在价值转化为实际利益 2 还未有被大数据触及过的业务领域这些是还未被挖掘的油井金矿是所谓的蓝海 9 云计算和大数据的关系云计算充当了工业革命时期的发动机的角色而大数据则是电云计算思想把计算能力作为一种像水和电一样的公用事业提供给用户 10 二机器学习深度学习和人工智能 11 任何通过数据训练的学习算法的相关研究都属于机器学习比如线性回归 LinearRegression K均值 K means 基于原型的目标函数聚类方法决策树 DecisionTrees 运用概率分析的一种图解法随机森林 RandomForest

3、运用概率分析的一种图解法 PCA PrincipalComponentAnalysis 主成分分析 SVM SupportVectorMachine 支持向量机以及ANN ArtificialNeuralNetworks 人工神经网络深度学习的概念源于人工神经网络的研究通过组合低层特征形成更加抽象的高层表示属性类别或特征以发现数据的分布式特征表示深度学习是机器学习研究中的一个新的领域其动机在于建立模拟人脑进行分析学习的神经网络它模仿人脑的机制来解释数据例如图像声音和文本人工智能企图了解智能的实质并生产出一种新的能以人类智能相似的方式做出反应的智能机器该领域的研究包括

4、语音识别图像识别机器人自然语言处理智能搜索和专家系统等 12 人工智能与机器学习深度学习的关系 13 三编程语言的选择 14 15 PK R与Python语言的区别学习难度大入门简单适合处理大量数据功能强大命令式编程统计功能强大 16 17 Python在线学习推荐菜鸟教程 18 Anaconda 初学Python 入门机器学习的首选 NumPy Scipy TensorFlow Matplotlib Pandas Scikit Learn 19 四机器学习算法介绍 20 拥抱人工智能从机器学习开始 21 机器学习最大的特点是利用数据而不是指令来进行各种工作其学习过程

5、主要包括数据的特征提取数据预处理训练模型测试模型模型评估改进等几部分 22 机器学习算法是使计算机具有智能的关键算法是通过使用已知的输入和输出以某种方式训练以对特定输入进行响应代表着用系统的方法描述解决问题的策略机制人工智能的发展离不开机器学习算法的不断进步 23 机器学习算法分类 24 1 线性回归找到一条直线来预测目标值一个简单的场景已知房屋价格与尺寸的历史数据问面积为2000时售价为多少 25 26 线性回归的应用预测客户终生价值基于老客户历史数据与客户生命周期的关联关系建立线性回归模型预测新客户的终生价值进而开展针对性的活动机场客流量分布预测以

6、海量机场WiFi数据及安检登机值机数据通过数据算法实现机场航站楼客流分析与预测货币基金资金流入流出预测通过用户基本信息数据用户申购赎回数据收益率表和银行间拆借利率等信息对用户的申购赎回数据的把握精准预测未来每日的资金流入流出情况电影票房预测依据历史票房数据影评数据舆情数据等互联网公众数据对电影票房进行预测 27 2 逻辑回归找到一条直线来分类数据逻辑回归虽然名字叫回归却是属于分类算法是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中预估事件出现的概率并分类逻辑回归从直观上来说是画出了一条分类线位于分类线一侧的数据概率 0 5 属于分类A 位

7、于分类线另一侧的数据概率 0 5 属于分类B 28 3 K 近邻用距离度量最相邻的分类标签一个简单的场景已知一个电影中的打斗和接吻镜头数判断它是属于爱情片还是动作片当接吻镜头数较多时根据经验我们判断它为爱情片那么计算机如何进行判别呢 29 4 朴素贝叶斯选择后验概率最大的类为分类标签一个简单的场景一号碗 C1 有30颗水果糖和10颗巧克力糖二号碗 C2 有水果糖和巧克力糖各20颗现在随机选择一个碗从中摸出一颗糖发现是水果糖问这颗水果糖 X 最有可能来自哪个碗 30 例如上面的例子中 P X 水果糖的概率为5 8P X C1 一号碗中水果糖的概率为3 4P X C2

8、二号碗中水果糖的概率为2 4P C1 P C2 两个碗被选中的概率相同为1 2则水果糖来自一号碗的概率为 P C1 X P X C1 P C1 P X 3 4 1 2 5 8 3 5水果糖来自二号碗的概率为 P C2 X P X C2 P C2 P X 2 4 1 2 5 8 2 5P C1 X P C2 X 因此这颗糖最有可能来自一号碗朴素贝叶斯的主要应用有文本分类垃圾文本过滤情感判别多分类实时预测等 31 5 决策树构造熵值下降最快的分类树一个简单的场景相亲时可能首先检测相亲对方是否有时间如果有则考虑进一步接触再观察其是否有上进心如果没有直接SayGoodbye

9、如果有则在看帅不帅帅的可以列入候选名单决策树可以应于用户分级评估贷款风险评估选股投标决策等 32 6 支持向量机 SVM 构造超平面分类非线性数据一个简单的场景要求用一根线将不同颜色的球分开要求尽量在放更多球之后仍然适用 A B两条线都可以满足条件再继续增加球线A仍可以将球很好的分开而线B则不可以 33 进一步增加难度当球没有明确的分界线用一条直线已经无法将球分开该怎么解决 SVM可应用于垃圾邮件识别手写识别文本分类选股等 34 7 K means 计算质心聚类无标签数据在上面介绍的分类算法中需要被分类的数据集已经有标记例如数据集已经标记为或者

10、通过学习出假设函数对这两类数据进行划分而对于没有标记的数据集希望能有一种算法能够自动的将相同元素分为紧密关系的子集或簇这就是聚类算法 35 8 关联分析挖掘啤酒与尿布频繁项集的关联规则算法中几个相关的概念频繁项集在数据库中大量频繁出现的数据集合例如购物单数据中啤酒尿布啤酒尿布出现的次数都比较多关联规则由集合A 可以在某置信度下推出集合B 即如果A发生了那么B也很有可能会发生例如购买了尿布的人很可能会购买啤酒支持度指某频繁项集在整个数据集中的比例假设数据集有10条记录包含啤酒尿布的有5条记录那么啤酒尿布的支持度就是5 10 0 5

11、置信度有关联规则如尿布啤酒它的置信度为尿布啤酒假设尿布啤酒的支持度为0 45 尿布的支持度为0 5 则尿布啤酒的置信度为0 45 0 5 0 9 36 9 PCA降维减少数据维度降低数据复杂度降维是指将原高维空间中的数据点映射到低维度的空间中因为高维特征的数目巨大距离计算困难分类器的性能会随着特征数的增加而下降减少高维的冗余信息所造成的误差可以提高识别的精度 37 10 人工神经网络逐层抽象逼近任意函数前面介绍了九种传统的机器学习算法现在介绍一下深度学习的基础人工神经网络它是模拟人脑神经网络而设计的模型由多个节点人工神经元相互联结而成

12、可以用来对数据之间的复杂关系进行建模 38 例如利用单层神经网络实现逻辑与门和同或门 39 多层神经网络的每一层神经元学习到的是前一层神经元值的更抽象的表示通过抽取更抽象的特征来对事物进行区分从而获得更好的区分与分类能力 40 11 深度学习赋予人工智能以璀璨的未来深度学习就是一种基于对数据进行表征学习的方法使用多层网络能够学习抽象概念同时融入自我学习逐步从大量的样本中逐层抽象出相关的概念然后做出理解最终做出判断和决策通过构建具有一定深度的模型可以让模型来自动学习好的特征表示从底层特征到中层特征再到高层特征从而最终提升预测或识别的准确性 41 深度学习的历史变

13、迁深度学习经历了三次浪潮 20世纪40年代 60年年代深度学习的雏形出现在控制论中 20世界80年代 90年代深度学习表现为联结主义 2006年以后正式以深度学习之名复兴第一次浪潮以感知机和线性模型为代表不能解决与或问题第二次浪潮以多层感知机和BP模型为代表以统计学为基础应用核函数和图模型的支持向量机算法 SVM算法等各种浅层有监督的机器学习模型广泛应用且深度神经网络不可训练第三次浪潮以无监督学习为代表解决了深层神经网络的计算能力问题解决了深度神经网络后向误差反馈梯度消失的问题 42 最初人工神经网络中神经元之间的连接数受限于硬件能力而现在神经元之间的连接数大多

14、是出于设计考虑一些人工神经网络中每个神经元的连接数与猫一样多并且对于其他神经网络来说每个神经元的连接数与较小哺乳动物如小鼠一样多这种情况是非常普遍的甚至人类大脑每个神经元的连接数也没有过高的数量 1 自适应线性单元 WidrowandHoff 1960 2 神经认知机 Fukushima 1980 3 GPU 加速卷积网络 Chellapillaetal 2006 4 深度玻尔兹曼机 SalakhutdinovandHinton 2009a 5 无监督卷积网络 Jarrettetal 2009b 6 GPU 加速多层感知机 Ciresanetal 2010 7 分布式自编码器 L

15、eetal 2012 8 Multi GPU卷积网络 Krizhevskyetal 2012a 9 COTSHPC无监督卷积网络 Coatesetal 2013 10 GoogLeNet Szegedyetal 2014a 与日俱增的每个神经元的连接数 43 自从引入隐藏单元人工神经网络的规模大约每2 4年翻一倍 1 感知机 Rosenblatt 1958 1962 2 自适应线性单元 WidrowandHoff 1960 3 神经认知机 Fukushima 1980 4 早期后向传播网络 Rumelhartetal 1986b 5 用于语音识别的循环神经网络 RobinsonandFall

16、side 1991 6 用于语音识别的多层感知机 Bengioetal 1991 7 均匀场sigmoid信念网络 Sauletal 1996 8 LeNet5 LeCunetal 1998c 9 回声状态网络 JaegerandHaas 2004 10 深度信念网络 Hintonetal 2006a 11 GPU 加速卷积网络 Chellapillaetal 2006 12 深度玻尔兹曼机 SalakhutdinovandHinton 2009a 13 GPU加速深度信念网络 Rainaetal 2009a 14 无监督卷积网络 Jarrettetal 2009b 15 GPU 加速多层感知机 Ciresanetal 2010 16 OMP 1网络 CoatesandNg 2011 17 分布式自编码器 Leetal 2012 18 MultiGPU卷积网络 Krizhevskyetal 2012a 19 COTSHPC无监督卷积网络 Coatesetal 2013 20 GoogLeNet Szegedyetal 2014a 与日俱增的神经网络规模 44 目前深度学习的应用十分广泛

展开阅读全文

机器学习精ppt课件

最新文档