随机森林算法资料

上传人:E**** 文档编号:100250872 上传时间:2019-09-22 格式:PDF 页数:35 大小:1,015.61KB
返回 下载 相关 举报
随机森林算法资料_第1页
第1页 / 共35页
随机森林算法资料_第2页
第2页 / 共35页
随机森林算法资料_第3页
第3页 / 共35页
随机森林算法资料_第4页
第4页 / 共35页
随机森林算法资料_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《随机森林算法资料》由会员分享,可在线阅读,更多相关《随机森林算法资料(35页珍藏版)》请在金锄头文库上搜索。

1、统计预测算法选讲 报告人:刘思叶报告人:刘思叶 随机森林算法原理与应用 目录 绪论 统计预测 统计预测发展历程 随机森林研究现状 分类决策树 决策树引导 决策树定义 决策树构造 决策树构造实例 随机森林 随机森林引导 随机森林原理 随机森林特性 随机森林优化方法 随机森林在遥感中应用 1.1统计预测 “知斗则修备,时用则知物,二者形则万货之情可得而 观已。” 何为预测?韦伯斯特辞典中预测的定义为:“以现有 的相应资料的理论研究和分析成果来预报未来的某些事件 或情况”。 1.1统计预测 统计预测是在大量统计资料的基础上,运用社会、经济、环 境统计和数理统计方法研究事物发展变化趋势和方向的预测方

2、法。 1.2统计预测发展历程 统计预测的方法按照其发展时间顺序可以分为以下三个阶段: 结构计量模型阶段 时间序列模型阶段 数据挖掘和智能预测阶段 1.2统计预测发展历程 结构计量模型阶段 结构计量模型是先找到关于某个问题的理论,并先假定这个理论是正确 的,然后根据该理论来设定具体的统计模型以用于估计和预测。该类模型最 常见的是线性回归模型。 时间序列模型阶段 时间序列分析模型遵从的原则是利用某变量的历史数据来预测它的未来 可能值,可以无须其他外生解释变量,也可以考虑考虑其它外生解释变量。 该类模型最常见得是自回归条件异方差模型。 1.2统计预测发展历程 数据挖掘和智能预测阶段 信息技术以及计算

3、机的发展,使得数据收集变得更加便捷,数据量呈爆 炸式增长,比如超市的交易记录、地面的遥感图像和人体的心率数据。尽管 传统的基于数学假设的参数模型某种程度任然有用,但是大量数据的获取显 然可以使得我们进一步探索系统更加精细的结构,从而使得我们获得对真实 世界更加合理和接近的解释,因此数据挖掘技术至此诞生。 目前主要的数据挖掘和智能预测方法主要有:决策树、神经网络、支持 向量机遗传算法和随机森林等。随机森林 1.3随机森林研究现状 单模型分类方法模型往往精度不高,容易出现过拟合问题,因此很多学 者往往通过组合多个多个单分类模型来提高预测精度,这些方法称为分类器 组合方法。 随机森林(Random

4、Forest,RF)是决策树的组合,每棵决策树都是通过 对原始数据集中随机生成新的数据集来训练生成,随机森林决策的结果是多 数决策树的决策结果。 该算法由Bireman于2001提出,并被广泛应于医学、经济学、管理和遥 感等领域,例如:在生态学方面,Gislason等利用RF方法对土地的覆盖面积 进行了研究,发现RF与其它组合算法相比,训练更快;在医学方面, Kouzania等人利用RF技术对肺部CT图像进行肺结核的自动检测;在遥感地 理学上,Gislason等利用RF分类器进行了土地覆盖研究。 目录 绪论 统计预测 统计预测发展历程 随机森林研究现状 分类决策树 决策树引导 决策树定义 决策

5、树构造 决策树构造实例 随机森林 随机森林引导 随机森林原理 随机森林特性 随机森林优化方法 随机森林在遥感中应用 2.1决策树引导 通俗来说,决策树分类的思想类似于找对象。 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 2.1决策树引导 假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入 者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑。 2.2决策树定义 决策树定义 决策树(decision tree)是一个树结构(可以是

6、二叉树或非二叉树,一 般取二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表 这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策 树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并 按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决 策结果。 2.3决策树构造 决策树构造 即通过对样本数据的学习和训练,生成能够有效区分样本数据的决策树 的过程。在生成过程中往往依据某种分裂属性(增益率,信息熵等),来确 定决策树内部节点的判断条件,从而将样本数据集D分为D1、D2Dn,通 常使得D1、D2Dn的区分度较高或各自的内聚性较好,并进而对D1

7、、 D2Dn进行递归分裂,最终获得的能够区分样本的决策树。 2.4决策树构造实例 ID3算法 ID3算法的核心思想就是以信息增益作为分裂属性,选择分裂后信息增 益最大的属性进行分裂。 设D为全部样本的集合,则D的熵(entropy)表示为: 将训练元组D按属性A进行划分,则A对D划分的熵为: 信息增益即为两者的差值: 2.4决策树构造实例 ID3算法实例 2.4决策树构造实例 ID3算法实例 首先计算按照日志密度分类获得的信息增益: 按照相同的方法可以算出是否使用真实头像和 好友密度的信息增益分别是0.033和0.553。 2.4决策树构造实例 ID3算法实例 按照好友密度进行分割得到的决策树

8、如下: 目录 绪论 统计预测 统计预测发展历程 随机森林研究现状 分类决策树 决策树引导 决策树定义 决策树构造 决策树构造实例 随机森林 随机森林引导 随机森林原理 随机森林特性 随机森林优化方法 随机森林在遥感中应用 3.1随机森林引导 单模型分类方法模型往往精度不高,容易出现过拟合问题,因此很多学 者往往通过组合多个多个单分类模型来提高预测精度,这些方法称为分 类器组合方法。随机森林是为了解决单个决策树模型过拟合问题而提出 的算法 过拟合 模型的分类误差可以分为训练误差(样本数据集上误差)和泛化误差 (未知数据上误差)。决策树在训练过程中,其训练误差一般随着训练数据 集的增大而减小;但其

9、泛化误差在数据集规模超过一定界限后,逐渐增加。 标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假 设h属于H,使得在训练样例上h的错误率比h小,但在整个实例分布上h比h 的错误率小,那么就说假设h过度拟合训练数据。(Machine learing) 3.1随机森林引导 对过拟合的认识 可以这么简单来理解这个现象,如果我们把样本数据分为有效信息和噪 声信息。 在小规模数据时,随着有效信息的增加,我们对分类的标准了解也就越 多,因此决策树能够正确分类的数据的比例也就上升。 但是当数据规模比较大的时候,决策树已经蕴含了大部分的有效信息, 因此当新的有效信息在加入时,对决策树的改进微乎

10、其微,然而噪声信息是 一种随机的信息,噪声信息集合的测度一般来说比有效信息的测度要大,新 加入的噪声信息一般不包含在已有噪声信息中,此时对决策树进行改变的信 息则主要是噪声信息,因此决策树的泛化能力就逐渐下降。 3.2随机森林原理 随机森林 随机森林是一种统计学习理论,它利用bootstrap重抽样方法从原始样 本中抽取多个样本,然后对每个bootstrap样本进行决策树建模,然后组 合成多棵决策树进行预测,并通过投票得出最终预测结果。 bootstrap重抽样 核心思想在n个原始样本数据的范围内做有放回的抽样,样本容量仍 为n,每个观测对象被抽到的概率相等,即为1/n它是将样本看作整体, 将

11、从样本中抽样得到的子样本看作样本,把所得到的这个子样本称为 Bootstrap样本。 3.2随机森林原理 随机森林 随机森林是一种统计学习理论,它利用bootstrap重抽样方法从原始样 本中抽取多个样本,然后对每个bootstrap样本进行决策树建模,然后组 合成多棵决策树进行预测,并通过投票得出最终预测结果。 1.每棵决策树由样本量为K的训练样本X和随机向量生成 2.随机向量序列, =1,2,K独立同分布 3. 随机森林即所有决策树的集合 , =1,2,K 4.每个决策树模型 ,都有一票投票权来选择输入变量的分 类结果 H = max =1 ( = ) 其中,H 表示随机森林 分类结果,

12、是单个决策树分类 结果,Y表示分类目标,I 为示性函数,RF分类模型使用简单的 投票策略来完成最终的分类 3.2随机森林原理 随机森林 3.2随机森林原理 随机森林优于决策树? 假设1:数据样本D中元素只有两类0,1 假设2:随机森林中每棵决策树的正确率p=0.8 假设3:随机森林中每棵决策树之间相关系数01 假设4:包含k棵决策树的随机森林的正确率,位于k棵完全相关决策树 和k棵完全非相关决策树之间 对于k棵完全相关决策树,由于某棵树分类正确等价于其它树分类正确, 其正确率p1=p=0.8 对于k棵完全非相关决策树,每棵决策树分类正确与否完全独立,服从 二项分布。 k=1时: p(T)=p=

13、0.8,p(F)=1-p=0.2 k=3时:P(T)=p3+3*p*p*(1-p)=0.896,p(F)=1-p(T)=0.104 k=5时:p(T)=p5+5*p4*(1-p)+10*p3*(1-p)2=0.94208 p(F)=0.05792 3.2随机森林原理 随机森林优于决策树? 假设1:数据样本D中元素只有两类0,1 假设2:随机森林中每棵决策树的正确率p=0.8 假设3:随机森林中每棵决策树之间相关系数01 假设4:包含k棵决策树的随机森林的正确率,位于k棵完全相关决策树 和k棵完全非相关决策树之间 3.3随机森林特性 收敛性 定义余量函数: mr , = ,= max ,= mr

14、 , 代表余量函数,I 为示性函数, ,代表分类模型序列,余 量函数反映了输入样本X对应的正确分类结果Y的得票数超过其他错误分类 类别中得票数最多者的程度。 按照随机森林通过简单投票进行的特点定义泛化误差: = , , 0 泛化误差收敛的表示: lim = , ,= max ,= 0 意义:模型不会随着决策树数目的增加而产生过度拟合的问题 3.3随机森林特性 泛化误差上界 由契比雪夫不等式 , , , , 2 定义单棵决策树分类强度s,决策树之间的相关性 s = , , =,( ,= max ,= ) = , , , 泛化误差上界: 12 2 意义:决策树分类强度越大,决策树间相关性越小,模型

15、越准确 3.3随机森林特性 实验性质 优点 1. 对于很多种资料,它可以产生高准确度的分类器。 2. 它可以处理大量的输入变量。 3. 它可以在决定类别时,评估变量的重要性。 4. 在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。 5. 它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资 料遗失,仍可以维持准确度。 6. 它提供一个实验方法,可以去侦测 variable interactions 。 7. 对于不平衡的分类资料集来说,它可以平衡误差。 8. 它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资 料视觉化非常有用。 9. 使用上述。它可被延伸应用在未标记的资料上,这类资料

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号