多元回归树分析MultivariateRegressionTreesMRT

上传人:壹****1 文档编号:430914006 上传时间:2024-02-22 格式:DOCX 页数:13 大小:133.91KB
返回 下载 相关 举报
多元回归树分析MultivariateRegressionTreesMRT_第1页
第1页 / 共13页
多元回归树分析MultivariateRegressionTreesMRT_第2页
第2页 / 共13页
多元回归树分析MultivariateRegressionTreesMRT_第3页
第3页 / 共13页
多元回归树分析MultivariateRegressionTreesMRT_第4页
第4页 / 共13页
多元回归树分析MultivariateRegressionTreesMRT_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《多元回归树分析MultivariateRegressionTreesMRT》由会员分享,可在线阅读,更多相关《多元回归树分析MultivariateRegressionTreesMRT(13页珍藏版)》请在金锄头文库上搜索。

1、多元归树分析 MultivariateRegressionTrees,MRT多元回归树(Multivariate Regression Trees, MRT)是单元归树的拓展,是一种对一系列连续型变量递归划分成多个类群的聚 类方法,是在决策树(decision-trees)基础上发展起来的一种较新的 分类技术。同一般回归模型一样,MRT也需要因变(响应变量,群落 学中一般是物种数据)和自变量(预测变量,一般为环境因子数据 )。不 同的是, MRT 不需要在响应变量和预测变量之间建立参数估计的回归 关系,而是以预测变量为分类节点,利用二歧式的分割法(binary split), 将由响应变量定义

2、的空间(样方)逐步划分为尽可能同质的类别,每一次 划分都由某一预测变量(环境因子)的一个最佳划分值来完成, 将响应变 量定义的空间(样方)分成两个部分(也叫节点,node),最佳划分原则是 让两个节点内部的差异尽量小,节点间的差异尽量大。MRT 是一种强大而可靠的分类方法,即使被划分的变量含有缺失 值,或者响应变量与解释变量是非线性关系,或解释变量之间存在高 阶相互关系,经过交叉验证等一系列筛选过程,多元回归树都能够发 挥很好的预测作用。多元回归树结果通常用一个倒立的树状结构图表示,上面的节点 为分支点,分枝点是能够使得两分枝的响应变量的变异最大的预测变 量的某个值,使得各节点(分类群)内样本

3、的总方差最小或由于样本 数量过少无法继续分层,这里的终节点为叶,而分枝开始的节点被称 为根。在大量的类群划分方案中,通常保留“最具预测能力的”划分 方案。归树建模的原理与方法多元回归树的计算通常分两步来完成,最初生成一颗较大的树,然后通过统计估计来删除底部的一些节点对树进行修剪,以防止过度 拟合并保留最佳的分类方案。1.据约束划分在预测变量(连续型或分类变量)的控制下,通过持续的 (或递归 的)分层将响应变量(连续型变量)不断分类 (亦即分枝) ,其划分的依 据为这一系列预测变量的解释变量。使得各节点(分类群)内样本的 总方差最小或由于样本数量过少无法继续分层。此时,保留的是相对 误差(rel

4、ative error, RE)最小的回归树,但是,这种情况下,回归 树只具有解释功能,而缺乏预测功能。相对误差为所有叶子组哪平方 和除以原始数据的平方和,也就是回归树不能解释的方差比例。为获得最最具预测能力的分类方案,第一步产生的回归树还需要 通过剪枝处理。回归树的预测能力可以用其预测误差进行评估。评价 的标准是既要保证回归树包含了足够的信息,又要把并不重要的枝节去 掉。比较著名的规则就是“1SE”( 1标准差)准则,其意思是:首先 要保证交叉验证误差( CVRE ,通过交叉验证获得)尽量小,但不一定 要取最小值, 而是允许它在“最小误差”加一个相应标准差的范围内, 然后在此范围内选取尽量小

5、的复杂性参量,进而以它为依据进行剪枝。 这个规则体现了兼顾树的规模(复杂性)和误差大小的思想。交叉验证通常是利用原始数据的一部分(称为训练集 training set) 构建一颗树,剩下另一部分(称为验证集test set)验证训练集构建的 树的准确性,具有良好预测能力的回归树会将验证集合中的各数据点 划分到合适的类群中,即新分配的响应变量总是接近所在组的形心( centroid ) 。交叉验证误差( CVRE )可以被用来评估回归树的预测 能力。公示为:22 皿 恤扩 其中y淞)为验证集k中的每个观测值;咖=歹他是验证集k中的每个观测值的预测值;y y IV.v;)-a岛存亲谕血血畐軸巧亡羊

6、巫朮口图1.交叉验证误差的公式因此,CVRE可以定义为验证组未能被树解释的方差除以响应变量 的总方差。当然,CVRE计算公式的分子会随着分组情况的变化而变化。 理想的预测情况下,CVRE值为0是最理想的预测结果,CVRE的值越 接近于1 ,预测结果越差。mvpart程序包中M町的运算流程1.将数据随机划分成k组(默认为10组,xval二10)。2. 从k组中随机选取一组作为“验证组”(testi ng set),剩余 k-1组(训练组,training set)重现混合后通过约束分析,按照组内 平方和最小的原则,建立回归树。3. 将以上过程重复k-1次,即依次剔除一组数据。4. 共产生 k 个

7、回归树,对于每个回归树的不同分类方案,将验证 组(一组数据)内的对象分配到分组结果中。计算每个回归树分类方 案的CVRE。5. 对回归树进行剪枝:可以保留 CVRE 最小的分类方案。也可以 根据“1SE”准则,保留CVRE在最小的CVRE加1个标准差范围内最 小的分类方案。6. 为了获得上面运行过程的误差估计值,需要重复多次( 100 次 或500次)将对象随机分配为k组。7. 置换检验保留具有最小CVRE误差(或者是1SE值最小,此法 最常用)的回归树。后台回复“mvpart”获取安装包windows和mac版下载链接 #计算需要用到的主要函数为mvpart程序包的mvpart()。该函数

8、要求输入的响应变量为matrix,解释变量为data.frame().#安装程序包,因mvpart在R网站已不在更新,因此必须从本地 安装;#后台回复“mvpart”获取安装包windows和mac版下载链接 #windos请mvpart_1.6-1.zip解压缩后拷贝mvpart文件夹至U R 程序安装文件夹library目录下,例如:D:Program FilesRR- 3.1.1library (找不到安装包,后台回复mvpart或mrt获得下载链接)#for mac /src/c on trib/Archive/mvpart/#install.packages(/training/MR

9、T/mvpart_1.6-2.tar, repos =NULL,type二source)#加载 mvpart 包library(mvpart)#调用程序包自带数据集spider#spider有28行18列,前12列为不同种蜘蛛的多度数据,剩余 的为环境数据data(spider)#defaults,.代表env中所有变量fiteritwigs=3.5匸eke r rs no亡 严、r 匸亠 - n kpe c匚 r a snrjpD图2.内置蜘蛛数据的多元回归树分析分组结果从图中可以看出蜘蛛数据所在的样方被分成3组,首先被herb变 量分成2组,然后第一组又被twigs变量分成了两组。图下边E

10、rror为 误差,CV Error为交叉验证误差,SE为标准差注意:因MRT交叉验证存在随机过程,每次分类可能存在不同结 果,这时最好多运行几次或者选择交互模式,选择合适的分组方案。#设定xv=1se,根据“1SE”准则自动选择最优分类方案,与默 认结果相同,因为默认选择1SEfit-mvpart(data.matrix(spider,1:12)herbs+reft+moss+sa nd+twig s+water,spider,xv=1se)luh/o 二、輛 L sfcM 丘廿回 W屋ffl回galuh/o -sfii .寸 fflMo u-f c - mu m V ” Hu?c roiL-

11、 vis 叫VA8SQEg.M Wsq4?l4grtHAS 詈g.E vs 詈g-賈SEg 一吃g vgq叟-ud.JOJ 如 .oEd.offl muoed.c?fi EOE-pued mu!17d.0-E EdGJl 迫 Bd_n世 az nyEBd 也nJal如(=u 一 UJ = HUJ曽U9Lv 屋ffl回gaLu#u 二、艦血呱扯垠八 WUJ=HX# M归粼0程艦扯垠伺皿邑嫂LSL、1 H dcrrf C - uo qcrH 匸.Bckbu t k ttiu二“匸uad,uE 吕rt.&.e rado-ra luolu-PJed munT-dG-e 3.30= Z-O-T-W wd

12、pdroIJ mE-FUBd .Ed3-EQZ nl-pBd elnrEPInf0.270.0590 010 026通常会比TSE”准则选择的最优分类方案的组数多。分组越多, CVRE越小,从这里我们可以理解剪枝的概念,尽管此时,CVRE最小, 但是我们有时候要兼顾分组的组数,有时候分组太多,并不利于我们 对数据的分析。这也是函数默认选择“1SE”准则的原因。#xv二pick,允许通过人机交互方式从函数提供的误差图中选择自 己认为合适的分组fit图6.点击合适的分组处的点,就会生产多元回归树的树形图#还可以设置交叉验证的迭代次数,默认xvmult = 0,上方绿色 条形图指出获得最佳分类方案交叉验证迭代的次数fit- mvpart(data.matrix(spider,1:12)herbs+reft+moss+sa nd+twig s+water,spider,xv二pick,xvmult =100)Size of tree口山 山乏冷-wiEX:raFX12346S78InfD.270.10.0590.M1D.0350.3260.014图7.绿色条形图指出获得最佳

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号