机器学习综述

上传人:re****.1 文档编号:562445240 上传时间:2022-08-06 格式:DOCX 页数:18 大小:185.91KB
返回 下载 相关 举报
机器学习综述_第1页
第1页 / 共18页
机器学习综述_第2页
第2页 / 共18页
机器学习综述_第3页
第3页 / 共18页
机器学习综述_第4页
第4页 / 共18页
机器学习综述_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《机器学习综述》由会员分享,可在线阅读,更多相关《机器学习综述(18页珍藏版)》请在金锄头文库上搜索。

1、人工智能机器学习综述摘要:机器学习(Machine Learning)是人工智能领域的一个核心研究方向。 它是一个多学科交叉的产物,它吸取了概率统计、神经生物学、信息论、控制论、 计算复杂性理论、哲学等学科的成果。在很多应用领域发挥了重要的实用价值, 特别是在数据挖掘、语音识别、图像识别、机器人、生物信息学、信息安全、遥 感信息处理等领域取得了瞩目的成果。关键词:人工智能;机器学习;数据挖掘;强化学习引言根据反馈的不同,机器学习可以分为监督学习或称为有导师学习(supervised learning, SL)、无监督学习或称为无导师学习(unsupervised learning, UL)和强

2、化学习(reinforcement learning, RL)三大类2。其中监 督学习方法是目前研究得较为广泛的一种,该方法要求给出学习系统在各种环境 输入信号下的期望输出,在这种方法中,学习系统完成的是与环境没有交互的记 忆和知识重组的功能。典型的监督学习方法包括决策树学习ID-5算法、BP算法、 贝叶斯分类算法、SVM算法等。无监督学习方法主要包括各种自组织学习方法, 如聚类学习、自组织神经网络学习等。强化学习是指从环境状态到行为映射的学 习,以使系统行为从环境中获得累计奖励值最大,包括蒙特卡洛法、时序差分法、 Q学习法等。从本质上讲,机器学习就是要使计算机能模拟人的学习行为,自动地通过学

3、 习获取知识和技能,不断改善性能,实现人工智能。随着计算机网络技术的发展,各行各业积累的数字化数据越来越多,如微博 的数字化、聊天记录的数字化、视频探头信息的数字化,大数据(Big Data)成 为当今流行的研究主题,在这种潮流下,如何对这些数据进行分析,从中发现蕴 涵的规律及有价值的信息,机器学习我想将有一席用武之地。研究现状及发展趋势一般来说,机器学习的研究起点最早可追溯到19世纪末的神经科学,特别是 James发现了神经元是相互连接的现象。随后,在20世纪30年代,McCulloch和 Pitts发现了神经元的“兴奋”和“抑制”机制,20世纪中叶,Hebb发现了“学 习律”,等等。在上述

4、神经生物学研究成果的基础上,机器学习的发展大致可分 为两条重要主线:一条主线是,以 Barlow提出的功能单细胞假设为依据, Rosenblatt于1956年提出了感知器,在随后的近30年时间里,Samuel等人提出的 “符号机器学习”方法一直处于主导地位,1969年M insky开始研究线性不可分问 题,1986年Rumelhart提出了著名的后向传播(BP)神经网络,20世纪90年代Vapnik 等人提出了针对有限样本的统计学习理论和支持向量机(SVM),等等;另一条主 线是,以Hebb提出的神经集合体假设为依据,1960年Widrow提出了 Madline以解 决平凡解问题,1984年V

5、alian t提出了 PAC, 1990年Schapire提出了弱学习定理, 1995年Freund和Schapire提出了AdaBoost算法,在上述研究成果的基础上,逐渐 形成了泛化理论。需要说明的是,在符号机器学习方面,1959年Solomonoff关于 文法归纳的研究应该是最早的符号机器学习,Samuel将学习限制在结构化数据, 由此学习演变为约简算法,这是现代符号机器学习的基础。如果将每条规则理解 为一个分类器,符号机器学习是也可算作是Hebb路线的产物。1997年Tom M. Mitchell在“Machine Learning 书中给出了机器学习的经典定义 “计算 机利用经验改善

6、系统自身性能的行为。”还有人认为,机器学习是“神经科学(含 认知科学)数学计算的有机结合,数学则填补了神经科学与计算之间的鸿 沟5。中科院自动化研究所模式识别国家重点实验室的王珏教授等人认为,目前机 器学习领域存在的主要理论问题有: 1、统计类机器学习需要满足独立同分布条 件,这样的要求太过苛刻。 2、没有一般的指导原则来寻找问题线性表示的空间。3、没有好的方法来支持信息向符号的映射。 4、机器学习没有一劳永逸的解决 方案。 5、领域知识与数据分析不可避免。南京大学计算机软件新技术国家重点实验室的周志华教授等人认为,今后10 年间机器学习领域存在5个挑战性问题: 1、泛化能力。2、速度。3、可

7、理解性。4、数据利用能力。5、代价敏感。28主要算法研究:1、关联规则的挖掘1.1 Apriori 算法关联规则挖掘是一种数据挖掘的方法。比如,很多顾客在购买商品A和B的同时也购买 了商品C和D,医院的病人患了 A病症的同时也患了 B病症等等,这些购买商品的记录和病 人患病的记录都可以存储在数据库中。所以,关联规则的挖掘就是从数据库的数据集中挖掘 出“什么跟什么伴随出现”的规律信息。尽管已经提出一些挖掘关联规则的算法,如AIS算法,SETM算法24,但最经典的是 Agrawal和Srikant于1993年提出的Apriori算法。该算法的基本思想是从包含一个项的 频繁项集(1-项集)开始,递归

8、地产生具有两个项的频繁项集,然后产生具有3个项的频繁项 集,如此下去,直到产生所有的频繁项集。根据韩家炜等人观点19,有以下定义和性质。设i = i, II 是m个不同项目的集合,1 2 m其中某一个元素称为项(Item)。记D为交易T (Transaction)的集合,这里交易T是项的集 合,显然有t匸I。对应每一个交易有唯一的标识符TID (Transaction ID)与之对应。一个 关联规则就是一个形如X t Y的蕴涵表达式,这里X匸I, Y匸I,并且X H Y二。定义1:支持度(Support)。对于关联规则X t Y,把X和Y的交易数与所有交易数 之比称为规则X t Y在交易集D中

9、的支持度。记Support(X t Y)= |W = X U yW c t DI,用概 率公式表示为Support(X t Y)= P(X U Y)。定义2:可信度(Confidence)。可信度是指包含X和Y的交易数与包含X的交易数之比。 记 Confidence(X t Y )= |W = X U yW c T |x|x c T ,用概率公式表示为 Confidence(X t Y)= P(X Y)。定义3:强关联规则。设minsup是最小支持度阈值,minconf是最小置信度阈值。如 果事务集合T中的关联规则x t Y 同时满足 Support(X t Y) min_ conf , Co

10、nfidence (X t Y) min_ conf , 则X t Y称为T中的强关联规则。关联规则的挖掘主要目的 就是在事务集合中挖掘强关联规则。性质1:一个项集是频繁的,则它的所有非空子集都必须是频繁的。性质2:在数据库中若有一事务t其长度小于k +1,则由频繁k项集生成k +1项集时,事 n务t就没有必要扫描的。n对于数据库D,当k=l时,第1次扫描数据库,记录每个项及其支持度在数据库中出现的 次数,这个计数就是1-项集的支持数,这时就得到候选1-项集了,记为c。丢弃那些低于支 持度期望阀值的候选1-项集就得到频繁1-项集了,记为l。对于k = 2,3,4,1,产生过程按如下 方法由频繁

11、(k -1)项集得到频繁k -项集。在频繁(k -1)项集列表上进行(k -1)项集的连接 运算,创建候选k项集,记为c。但需注意,仅当两个项集的前(k-2)项相同时一对(k-1)-项k集才能够组合在一起1,此时k项集由(k-2)个公共项和2个非公共项组成。继续扫描数据库,丢弃那些低于支持度期望阀值的候选k-项集就得到频繁k项集了,记为l。以此类推,当候选 k列表为空时停止,可得到所有的频繁项集。算法如下:输入:DB, min_sup输出:Result=所以频繁项集和它们的支持度(1) Result= ;(2) k=1;(3) c=所以的1-项集;(4) while(c )do(5) 为每一个

12、c中的项生成一个计数器;(6) for(i=1;i 3,按照算法,现在做连接运算 产生候选k-项集c,对c列表中的每一条记录在扫描数据库求支持度的同时扫描记录的每kk个非空真子集,如果它的非空真子集不是频繁项集,根据性质1,就可以把这条记录删除, 这一过程就称为减枝过程3。根据性质2,在扫描数据库的时候,也可以相应的减少候选集 的数量。(2)、减少访问数据库的次数。把所有的交易记录用布尔矩阵的形式表示,矩阵的行由 TID号表示,列由I来表示。这样,数据库中的交易记录只要被扫描一次,就可由矩阵唯一 的表示出来了,大大减少了访问数据库的时间。2、支持向量机(Support Vector Machi

13、ne, SVM)支持向量机是由V apnik等人1995年正式提出的,它是建立在统计学习理论的VC维理论 和结构风险最小原理基础之上的一种学习机器,是统计学习理论的一种实现方法,它在解决 小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到其他机器学习 问题中。19SVM机其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分 割,以保证最小的分类错误率6。SVM的另一个重要的优点是可以处理线性不可分的情况。 2.1线性可分假设存在训练样本(x , y ),(X , y ) (x , y ),x e Rn, y G +1,-1,l为输入维数,在线性可分的1 1 2 2 / /(2.1)情况下就会有一个超平面使得这两类样本完全分开。该超平面描述为(w x)+ b = 0其中,“”是向量点积。分类如下w x + b 0,iw x + b 0, i = 1,2 l ii优化函数(w)为二次型,约束条件是线性的,因此是典型的二次型规划问题,可由Lagrange乘子法求解。引入LLagrange乘子a.0(i = 1,2l)(2.5)L(w, b, a)=丄|wil2 - a (x w + b) 一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号