基于MODIS数据的决策树土地覆盖分类方法研究WANG Chang-yao\ LIU Zheng-jun2, LIU Yong-hong3, YUAN Jin-guo1(I. The State Key Laboratoiy of Remote Sen sing Science. Institute of Remote SensingApplications, Chinese Academy Siences, Beijing 100101, China;2.1nstitiHe of Photoranlmetry and Remote Sensing, Chinese Aoademy of Survey and Mapping,Beijing, 100039, China;3. Climate Center of Beijing Metropolis Beijing 100089, China)摘 要:日前国际上流行的有两种决策树算法一CART算法与C4.5算法及两种机器学习领域 里的分类新技术——boosting和bagging技术,为探究这些决策树分类算法与新技术在遥感 影像分类方面的潜力,我们以中国华北地区MODIS250米分辨率影像进行了土地覆盖决策 树分类试验与分析。
研究结果表明决策树在满足充分训练样本的条件下,相对于传统方法如 最大似然法(MLC)能明显提高分类精度,而在样本量不足下决策树分类表现差于MLC; 并发现在单-•决策树生成中,分类冋归树CART算法表现较C4.5算法具有分类精度和树结 构优势,分类精度的提高取决于树结构的合理构建与剪枝处理;另外在决策树CART中引 入boosting技术,能明显提高那些较难识别类别的分类准确率18.5%到25.6%关键词: 决策树 CART算法 C4.5算法 boosting和bagging技术•十-地覆盖MODIS250 氷:1引言土地覆盖及其变化是全球环境变化过程中的重要因子,而十地覆盖/植被类型的分布对 于地球生态系统过程的物质和能量交换中起着非常重要的作用和地位,也是全球变化和碳循 环模拟、气候模拟筹研究的重要内容遥感技术的发展,特别是全球1公里NOAA/AVHRR数 据集产品的提供,为人范围的十•地覆盖和森林制图提供了一条新途径,MODTS 250m分辨率 全球数据的提供则兴起新一•轮全球环境变化遥感研究的高潮近年来,在全球及区域土地覆盖/植被覆盖遥感制图方法上,决策树作为一•种新兴的分 类方法已得到成功应用。
Hansen (1996)等人利用NOAA/AVHRR全球1°X 1°数据进行了 决策树与最大似然法的土地覆盖分类⑴,显示分类树法的精度优于最人似然法,马里兰犬学 全球8km的土地覆盖产品也采用了二元决策树分类算法进行监督分类⑵,目前分发的 MODIS 1公里全球十-地覆盖产品也把决策树作为一种主要分类方法⑶,D. Muchoney (2002) 等人利用MODIS数据对美国中部进行土地覆盖分类⑷,比较了决策树、神经网络、最人似 然法三种分类方法效果,结果显示决策树分类精度最髙,此外在小区域范围内,S. M. JOY (2003)等人利用TM影像采用决策树对森林类型识别也取得较好的效果⑸在国内,决策 树也开始得到应用,王建(2000)等人利用地物的光谱统计特性结合纹理、形状等建立分层 决策树有效地提取荒漠化土地类型⑹;张丰(2002)等人根据水稻的高光谱特性建立混合决 策树分类树⑺,达到总体分类精度94.9%效果决策树作为一种监督分类方法,由于它的非参数和树结构特性,在处理遥感影像由于云 覆盖和星下校正反射率NBAR (Nadir BRDF-adjusted reflectance)数据不全造成的损失问题 上具有良好的稳健性和鲁棒性,并克服了最人似然法对数据分布要求的局限.同吋,决策树 相对于另一种流行的分类方法——人工神经网络法具有以下儿个优势:(1)分类树不含隐含 层从而避免了神经网络方法的内在模糊性n (2)计算时间明显少于神经网络。
3)树的分割 层次关系有利于进行数据结构的解释,有助于消除输入数据兀余和噪声,并能用于分类特征 提取,例如J. S. Borak (1999)等人运用决策树从人量数据中进行-分类特征选择同,取得较 好效果国内建立决策树的方法主要基于光谱统计特性生成的阈值以及相关先验知识,在实际工 作中由于不同时间、不同地点变化较人而难以操作,结果往往与研究者的经验和专业知识密 切相关本文采用常见两种决策树方法——CART算法、C4.5算法及两种应用到决策树中提 髙分类精度的新方法——boosting和bagging技术,并尝试采用上述方法和新技术进行了区 域尺度土地覆盖的遥感数据分类试验,U的在于探讨决策树分类器在遥感数据应用方而的技 术问题,并通过与最人似然法的比较分析,挖掘决策树分类器在遥感应用方而的相对优势、 局限性及其应用潜力2决策树算法分类冋归树CART(Classification and Regression Tree)为一种通用的树生长算法,由 Breiman 人提出(1984)冏,是一种监督分类方法,它利用训练样本来构造二义树并进行 决策分类其特点是充分利用二义树的结构(Binary Tree-structured),即根节点包含所有样 本,在一定的分割规则下根节点被分割为两个子节点,这个过程乂在子节点上重复进行,成 为一个冋归过程,直至不可再分成为叶节点为止。
C4.5为另一种广泛使用的单-决策树生成法,采用“信息获取率(information gain ratio)” 矩阵來实现分类它利用训练集,对每次选取信息获取率(gain ratio)最人的但同时获取的 信息增益乂不低于所有属性平均值的属性,作为树的结点,将每一个可能的取值作为此节点 的一个分支,递归地形成决策树与CART不同的是,C4.5利用了基于分支的统计显著性的误差概率技术來实现剪枝, 另一个显著差别是体现在对缺损模式的处理上,在训练阶段,C4.5并没有象CART以替代 分支(smrogaw split)來解决分类数据的缺损,而是以概率加权的方法来处理“属性丢失” 的问题在决策树分类器设计中,一种于90年代中后期在机器学习领域发展的被称之为 "boosting (增强法)⑴"2】,,的技术被广泛采用来提高分类精度.这种方法可以提高那些较难 识别样本的分类准确率,同吋这种技术能降低分类算法对数据噪声和训练样本谋差的敏感 性本文采用了一种基于AdaBoot (adaptive boosting —自适应增强)“刁方法的boosting技 术,它实际上是用训练样本来设计分类器的一种重采样技术。
在AdaBoot方法中,每一个 训练样本都被赋了一个权重,表明它被某个分量分类器选入训练集的概率如果每个样本点 已经被准确地分类,那么在构造下一•个训练集中,它被选中的概率就降低;相反,如果某个 样本点没有被正确分类,那么它的权重就得到提高通过这样的方式,AdaBoot方法就能够 “聚焦于”那些较困难(更富信息)的样本上,如此权重更新过的样本集被递归使用來训练 下一个分类器,直至分类误差小于某个阀值此外,本文还采用了另一种分类器设计中的重采样技术——bagging算法〔⑼来提髙分类 精度:此名来自于bootstrap aggregation ( |e|助聚集),它表示如下过程:从大小为n的原始 数据集D中,分别独立地抽取d个数据5S)形成自助数据集,并且将这个过程独立地进 行许多次,直到产生很多个独立的自助数据集然后,每一•个自助数据集都被独立地用于 训练一个“分量分类器”(component classifier)□ 一般bagging算法能提高“不稳定”分类 器的识别率,因为它相当于对不连续处进行了平均化处理这两种算法均产生多个“分量分类器”而不是最佳的单个分类器,没有剪枝过程发生, 最终的分类结果将根据这些“分量分类器”各I'l的判决结果的投票來决定。
Boosting技术己成功地应用到MODIS 1公里十.地覆盖制图产品中(决策树方法采用了C4.5决策树)⑶,bagging技术的应用还未见报道,本文则对这两种技术与CART决策树相结合进行了最新尝试3 土地覆盖分类遥感影像土地覆盖分类是指通过对遥感影像上各种地物的光谱信息的分析,将象元划分 为不同类型的土地覆盖单位,因此地物的光谱特性是土地覆盖分类的主要判别依据为测试 中分辨率影像MODIS250米分辨率数据对人尺度区域十•地覆盖分类的性能,本文选取中国 作为宏观土地覆盖分类研究区域,本研究区域的土地覆盖类型采用中国植被编码体系,主要 基于1: 400万《中国植被图》(1979,中国地图出版社,中国科学院与环境信息系统国家重 点试验室数字化)所采用的中国植被编码体系并结合遥感数据的特点而设计的二级土地覆盖 分类体系21,依据本区实际情况,把主要土地覆盖类型分成了 8类:落叶阔叶林(记为阔 叶林)、常绿针叶林(记为针叶林)、灌木矮林、草地、农田、沼泽草甸、水体、建筑居民地在遥感影像分类中,一个好的监督分类方法应该包括三个方而:(1)代表性较好的训练 样本;(2)较佳的分类特征;(3)设计良好的分类器。
本文将分别从这三个方而进行试验:3.1样本选取训练数据的质量在很人程度上影响着制图精度由于缺乏相应区域足够的地而实际样 本,为最人限度的保证选取样本的代表性,以本区1: 400万比例尺植被类型图为基础,参 考1990-1995年的地而森林抽样清查数据,并结合1: 100万土地利用数据库(1995,基于 TM影像解译得到的全国1: 100万比例尺的中国资源环境遥感数据库),所形成的矢暈数据 以统-的地理坐标方式投影到遥感影像图上,结合遥感影像bl视解译选出各类有代表性的样 点4605个,把总样本按比例7: 3分成2部分,一部分为训练样本3226个,另一部分验证 样本1379个3.2分类特征选择及数据获取、处理为获取较优的分类特征,本文从十•地覆盖类型的光谱特征空间、物候特征空间、地形 特征空间三方而进行选择:首先选取了美国 LP DAAC (Land Process Distributed Active Archive Center)的 MODIS 数据产品:2001年4月7日一 14日MODIS 8天合成的波段反射率产品MOD09Q1 (1-2波 段250米分辨率)和MOD09A1 (3・7波段500米分辨率)图像,代表各类别的反射率波谱 特征;其次,根据本区各类别的物候特性,选取了 2001年中代表四黍的4个时相16天最人值 合成的MODIS250米分辨率植被指数产品MOD13A1,分别是1月1日一16日、4月7日一 22日、7月12—27日、9月30日一10月15 0,本产殆包括两种植被指数:归一化植被指 数NDVI和增强性植被指数EVIi,5,=由于EVI对植被类型季节性变化较NDVI更为敏感, 而且克服了一些NDVI的不足〔"I,因此本文采用多时相EVI植被指数作为波谱物候特征。
考虑到本区各类别在地形上的差异,地形特征选用了中国1公里格网的DEM (地而数 字高程模型)影像对以上特征影像分别进行地理儿何校正与重采样,采样方法为邻近法,投影体系为双标 准纬线筹积圆锥投彫(ALBERS),椭球为Krosovsky体系,分辨率统一到250米,最终影 像大小为4725列X 5543行由于原始数据数据类型为16位,占用计算机资源较人°为有效压缩数据,充分利用7 个反射率波段的波谱信息,对7个波段进行了主成分变换,取前3个主成分波段(代表原始 7个波段方差的94.2% )参加分类运算,然后与其它4波段EVI数据、1波段DEM数据进 行了 0〜255之间数据类型到8位的归一化,转换公式为:其中,、、分别为每波段的实。