机器学习编年史

上传人:汽*** 文档编号:498311825 上传时间:2023-09-15 格式:DOCX 页数:8 大小:296.49KB
返回 下载 相关 举报
机器学习编年史_第1页
第1页 / 共8页
机器学习编年史_第2页
第2页 / 共8页
机器学习编年史_第3页
第3页 / 共8页
机器学习编年史_第4页
第4页 / 共8页
机器学习编年史_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《机器学习编年史》由会员分享,可在线阅读,更多相关《机器学习编年史(8页珍藏版)》请在金锄头文库上搜索。

1、机器学习编年史、 引言机器学习(Machine Learning, ML)可以认为是:通过数据,算法使得机器从大量历 史数据中学习规律.从而对新样本做分类或者预测。它是人工智能(Artificial Intelligence, Al)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用 归纳、综合的方法获取或总结知识。作为一门交叉领域学科,它涉及到概率论,统计学,凸分析,最优化,计算机等多个学 科。专门研究计算机怎样模拟或实现人类的学习行为,从而获取新的知识或技能,重新组织 已有的知识结构使之不断改善自身的性能。本文将以时间为顺序,从两个大阶段介绍机器学习,第一部分介绍

2、浅层学习阶段,第二 部分介绍深层学习阶段,就是所谓的深度学习。二、浅层学习阶段1. Arthur Samuel1959年IBM Arthur Samuel的写出了可以学习的西洋棋程序,并发表了一篇名为Some Studies in Machine Learning Using the Game of Checkers的论文中,定义并解释了一个新 词机器学习(Machine Learning, ML)。将机器学习非正式定义为”在不直接针对问题进 行编程的情况下,赋予计算机学习能力的一个研究领域”。图1 Arthur Samuel的西洋棋1957年,Rosenblatt发明了感知机(或称感知器,P

3、erceptron) 1,是神经网络的雏形, 同时也是支持向量机的基础,在当时引起了不小的轰动。感知机是二类分类的线性分类模型, 其输入为实例的特征向量,输出为实例的类别,取+丄和-1二值。感知机对应于输入空间(特 征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训 练数据进行线性划分的分离超平面。图2.1感知机算法其实设计感知器的初衷是制造一个识别用的机器,而不是一个算法。虽然它的第一次实 现是在IBM704上安装的软件中,但它随后在定制的硬件实现-Markl感知器”。这台机器是 用于图像识别,它拥有一个容量为400的光电池阵列,随机连接到“神经元”,连接权重使

4、用 电位编码,而且在学习期间由电动马达实施更新。图2.2 Markl感知器I960年,Widrow发明了 Delta学习规则,即如今的最小二乘问题,立刻被应用到感知 机中,并且得到了一个极好的线性分类器。Delta学习规则是一种简单的有导师学习算法, 该算法根据神经元的实际输出与期望输出差别来调整连接权,其数学表示如下:其中表示神经元j到神经元i的连接权值,是神经元i的期望输出,”是神经元i 的实际输出,表示補经元j的状态,若处于激活态则対1,否则対0或-1根抿激活函数 而定)。比是表示学习速度的常数。1969年,Minskey提出了著名的XOR问题2,论证了感知器在类似XOR问题的线性 不可

5、分数据的无力,以至于其后十年被称为“冷静时期”,给感知机画上了一个逗号,以洪 荒之力将如火如荼将的ML暂时封印了起来。Rosenblatt在这之后两年郁郁而终与此也不 无关系,虽然当时Rosenblatt才43岁,虽然Rosenblatt死于游艇意外事故图3 XOR问题1970年,Seppo Linnainmaa首次完整地叙述了自动链式求导方法(Automatic Differentiation, AD) 3,是著名的反向传播算法(BackPropagation, BP)的雏形,但在当 时并没有引起重视。Automatic(human/computer)图4 AD算法流程图1974年,Werb

6、os首次提出把BP算法的思想应用到神经网络,也就是多层感知机 (Multilayer Perception, MLP) 4,并在1982年实现5,就是现在通用的BP算法,促成 了第二次神经网络大发展。MLP或者称为人工神经网络(Artificial Neural Network, ANN) 是一个带有单隐层的神经网络。output layerhidden layerinpul layer图5 MLP模型1985-1986年,Rumelhart, Hinton等许多神经网络学者成功实现了实用的BP算法来 训练神经网络67,并在很长一段时间内BP都作为神经网络训练的专用算法。FP图6反向传播算法效

7、果图1986年,JRQuinlan提出了另一个同样著名的ML算法决策树算法(ID3) 8,决 策树作为一个预测模型,代表的是对象属性与对象值之间的一种映射关系,而且紧随其后涌 现出了很多类似或者改进算法,如ID4,回归树,CART等。ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以 信息墻的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高 信息増益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。媚有房产图7决策树算法1995 年,Yan LeCun 提出了卷积神经网络(Convolution Neural N

8、etwork, CNN) 14, 受生物视觉模型的启发,通常有至少两个非线性可训练的卷积层,两个非线性的固定卷积层, 模拟视觉皮层中的VI, V2, Simple cell和Complex cell,在手写字识别等小规模问题上,取 得了当时世界最好结果,但是在大规模问题上表现不佳。ConvolutionsSutaamplog Convoiubons Subsamplmg Full connection图8用于手写字识别的LeNet1995 年,Vapnik 和 Cortes 提出 了强大的支持向量机(Support Vector Machine, SVM)9 ,主要思想是用一个分类超平面将样本

9、分开从而达到分类效果,具有很强的理论论证和实 验结果。至此,ML分为NN和SVM两派。1997年,Freund和Schapire提出了另一个坚实的ML模型Ada Boost10,该算法最大 的特点在于组合弱分类器形成强分类器,可以形象地表述为:“三个臭皮匠赛过诸葛亮”,分 类效果比其它强分类器更好。AdaBooM为毎个分矣31 分妃一个Balpha图 10 Ada Boost 算法2001年,随看核方法的提出12, SVM大占上风,它的主要思想就是通过将低维数据 映射到高维,从而实现线性可分。至此SVM在很多领域超过了 NN模型。除此之外,SVM 还发展了一系列针对NN模型的基础理论,包括凸优

10、化、范化间隔理论和核方法。O Negative objects Positive objects图11核方法2001年,Breiman提出了一个可以将多个决策树组合起来的模型随机森林(Random Forest, RF) 11,它可以处理大量的输入变量,有很高的准确度,学习过程很快,不会产生 过拟合问题,具有很好的鲁棒性。具体来说,随机森林就是由多棵CART (Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的:这意味看:总的训练 集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集

11、中。在训练每棵树的节点时:使用的特征是从所有特征中按照一定比例随机地无放回的抽取的/FTTi/Wj图12随机森林算法2001年,Hochreiter发现使用BP算法时,在NN单元饱和之后会发生梯度损失(梯度 扩散)17o简单来说就是训练NN模型时,超过一定的迭代次数后,容易过拟合。NN的 发展一度陷入停滞状态。深层学习阶段2006年,Hinton和他的学生在Science上发表了一片文章13,同一年另外两个团 队也实现了深度学习1516,从此开启了深度学习(DeepLeaming)阶段,掀起了深度神 经网络即深度学习的浪潮。Hinton在2006年提出的深度置信网络(Deep Belief N

12、etwork, DBN)开启了深度学习 新纪元,他提出了用神经网络给数据降维,就是所谓的稀疏化编码或者自动编码。他提出了 个新的神经网络模型叫做深度置信网络(Deep Belief Network, DBN),该网络可以看作限制玻尔兹曼机(Restricted Boltzmann Machine, RBM)是一个简单的双层神经网络, 只有输入、输出层,没有隐层,并且层间全连接.层内无连接。训练RBM的时候用的是一 个能量函数,由于无法使用梯度下降等常用算法训练最好的连接权重矩阵,采用Gibbs采样 等方法分批次进行训练,训练好的RBM可以看作输出层对输入层的特征提取。RBM训练好之后把它们垒在

13、一起就是DBN的初始权重,之后对DBN进行训练,这个 过程称为DBN的预训练。预训练阶段结束之后就是调优的过程,该过程也可称为Wake- Sleep 包括正向的前馈(Feed Forward, FF)过程和反向传播(Back Propagation, BP) 过程,前馈过程是改每一层的数据,反向传播过程是修改权重矩阵,这样反复调优,一直到 输出值和预期值误差最小。RBM| RBMPre trainingTO? RBMUnrUig1000MS_叫“itsI WriFine-* tun inc图14深度置信网络训练示意图2009年,微软研究院和Hinton合作研究基于深度神经网络的语音识别,历时两

14、年取得 成果,彻底改变了传统的语音识别技术框架,使得相对误识别率降低25%。2012年,Hinton又带领学生在目前最大的图像数据库ImageNet (1500万个图像. 22000种类),对分类问题取得了惊人的结果,将Top5错误率由2洲大幅隆低至15%。 ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美 国斯坦福的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。2012年 由人工智能和机器学习顶级学者Andrew Ng和分布式系统顶级专家Jeff Dean 领衔的梦幻阵容,开始打造Google Brain项目,用包含16000个CPU核的并行

15、计算平台训 练超过10亿个神经元的深度神经网络,在语音识别和图像识别等领域取得了突破性的进展4 。该系统通过分析丫ouTube 选取的视频,采用无监督的方式训练深度神经网络,可将 图像自动聚类。在系统中输入“cat”后,结果在没有外界干涉的条件下,识别出了猫脸。2012年 微软首席研究官Rick Rashid在21世纪的计算大会上演示了一套自动同声传 译系统5,将他的英文演讲实时转换成与他音色相近、字正腔圆的中文演讲。同声传译需要 经历语音识别、机器翻译、语音合成三个步骤。该系统一气呵成,流畅的效果赢得了一致认 可,深度学习则是这一系统中的关键技术。2013年,Google收购了一家叫DNN Research的神经网络初创公司,这家公司只有三 个人,Geoffrey Hinton和他的两个学生。这次收购并不涉及任何产品和服务,只是希望Hinton 可以将深度学习打造为支持Google未来的核心技术。同年,纽约大学教授,深度学习专家 Yann LeCun加盟Facebook,出任人工智能实验室主任6,负责深度学习的研发工作,利用 深度学习探寻用户图片等信息中蕴含的海量信息,希望在未来能给用户提供更智能化的产品 使用体验。2013年,百度成立了百度研究院及下属的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号