基于机器学习算法的樟子松立木材积预测

上传人:壹****1 文档编号:506676107 上传时间:2023-08-03 格式:DOCX 页数:8 大小:18.14KB
返回 下载 相关 举报
基于机器学习算法的樟子松立木材积预测_第1页
第1页 / 共8页
基于机器学习算法的樟子松立木材积预测_第2页
第2页 / 共8页
基于机器学习算法的樟子松立木材积预测_第3页
第3页 / 共8页
基于机器学习算法的樟子松立木材积预测_第4页
第4页 / 共8页
基于机器学习算法的樟子松立木材积预测_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《基于机器学习算法的樟子松立木材积预测》由会员分享,可在线阅读,更多相关《基于机器学习算法的樟子松立木材积预测(8页珍藏版)》请在金锄头文库上搜索。

1、基于机器学习算法的樟子松立木材积预测摘要:【目的】通过非线性和多种机器学习算法构建并比照不同的立木材积模型,为樟子松立木材积的精准预测提供理论依据。【方法】以大兴安岭图强林业局184株樟子松伐倒木数据为例,建立非线性二元材积模型(NLR),并通过K折交叉检验和oob误差检验的方法得到三种最优机器学习算法,包括:反向传播神经网络(BP)、-支持向量回归(-SVR)和随机森林(RF)。比照分析不同模型间的差异,得到最优立木材积模型。【结果】研究说明,机器学习算法在立木材积的拟合和预测中均优于传统二元材积模型,具体排序为RFBP-SVRNLR。其中RF相比于传统模型确实定系数(R2)提高了2.00%

2、,均方根误差(RMSE)、相对均方根误差(RMSE%)、平均绝对误差(MAE)分别降低了22.95%、22.93%、36.34%,且与真实值相比平均相对误差(MRB)的绝对值更低,由此证明了RF在立木材积预测中的优越性。【结论】机器学习算法作为一种新兴的建模方法可以有效地提高立木材积的预测精度,为森林资源的精准调查和经营管理提供新的解决方案。关键词:樟子松;二元材积模型;BP神经网络;-支持向量回归;随机森林立木材积是森林资源调查的重要指标,也是是计算森林蓄积量和生物量的主要依据1-4。因此,在森林经营管理中,为更好的评经济效益和生态效益,立木材积的研究一直以来都被受关注。传统立木材积的计算通

3、常利用的一元或多元立木材积表,或通过拟圆锥法、质心法、重要性采样法等进行估测5-6。随着人们对森林资源调查的不断深入,针对不同地区不同树种相继建立了不同类型的材积模型7-8。但森林生长是一个复杂连续且具有随机性的非线性生长过程,通过拟合立木材积模型虽然能填补材积预测的空白,却受制于模型和变量的选择以及对模型先验知识的累积,且预测精度受区域变化影响较大,增加了森林资源调查和经营管理的难度。机器学习算法理论始于20世纪中叶,相比于传统模型,机器学习算法可以在没有先验知识的前提下对数据进行拟合,分析数据中不同变量之间复杂、动态的内部结构9,而且机器学习算法的适用性更广,应用更加方便。能很好的克服数据

4、中可能存在的缺失点、噪音、多重共线性和异方差等现象10,在生物遗传、信息技术和金融工程等领域已被广泛应用。近年来随着统计软件技术的开展,机器学习算法在林业上也得到了一定的应用。Guan等11通过胸径及其年增长量建立4种人工神经网络模型,成功的对红松的生存率进行了预测;Maria12通过人工神经网络模型估算树皮材积,发现相比于非线性模型的RMSE降低了6.02%;Diamantopoulou等13通过比照分析不同的非线性模型和-支持向量机回归模型对4种黑凯木树皮材积的预测,得出-支持向量机回归模型的FI值分别比3种非线性模型降低了3.32%、9.73%和12.23%,且与真实值更接近。Colin

5、等14结合LiDAR数据建立多个模型对森林生物量进行估算,结果说明支持向量机回归为最优模型。目前,已有局部机器学习算法应用于立木材积中15-19,但鲜有对不同类型算法同时进行比照和分析的研究。本文以大兴安岭樟子松(Pinussylvestrisvar.mongolica)为研究对象,利用matlab2022b建立3种目前应用较为广泛的机器学习算法:反向神经网络模型(BackPropagation,BP)、-支持向量机回归模型(-SupportVectorRegression,-SVR)和随机森林模型(RandomForest,RF),并与传统二元材积模型作比照,评价最优模型,为提高樟子松的立木

6、材积预测精度和科学经营提供理论依据。1数据和方法1.1数据来源本文数据来源于大兴安岭图强林业局(12218281232810E,521535533342N)的樟子松数据。将树木伐倒后测量其带皮胸径、树高,并用15个相对树高的带皮直径(0%、2%、4%、6%、8%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%),利用区分求积法计算樟子松带皮立木材积。通过散点图排除异常点后得到184株样木,以5cm为一个径级分为10个径阶,按7:3分径阶随机抽样。最终得到训练样本129株、测试样本55株。为消除不同量级的变量对模型权重的影响,防止数值范围超出算法的训练区间,同时加

7、快网络的收敛速度。建模前对样本数据进行min-max标准归一化处理,使其统一介于0,1之间。得到的泛化结果通过反归一化复原,并与真实值比照和评价。1.2方法1.2.1二元材积模型传统立木材积方程包括一元、多元线性和非线性模型,本文采用林业上应用较为广泛的二元非线性模型(Non-linearregressionmodels,NLR)作为立木材积公式20-21。1.2.2反向神经网络模型(BackPropagation,BP)BP是由输入层、隐含层和输出层组成的反向传播网络模型,不同层通过神经元相互连接,但相同层神经元互不相连。通过激活函数将上一层的输入转化为下一层的输出,如输出结果超出期望误差,

8、那么通过误差逆向传播算法修正各神经元函数的权值和阈值,并不断重复上述过程以到达降低误差的目的22。经研究说明,三层BP神经网络即可拟合任何非线性曲线。本文以胸径D、树高H作为输入节点,材积V作为输出节点,建立结构为2:S:1的三层神经网络模型。其中隐含层激活函数选用tansig,输出层激活函数选用purelin函数。利用经验公式Sabc(式中为隐含层神经元个数,分别为输入层和输出层节点数,为1到10之间的整数)可得隐含层神经元个数在312之间。通过适当更改隐含层训练算法和神经元个数可以有效的提高网络拟合的速度和精度23,并用提前结束训练的方法防止模型过拟合。本文选用目前较为常用的几种训练算法,

9、包括梯度下降算法:变学习率动量梯度下降算法(GDX)、变学习率梯度下降算法(GDA)、弹性梯度下降算法(RP);共轭梯度算法:PowellBeale共轭梯度算法(CGB)、Fletcher-Reeves共轭梯度法(CGF)、Polak-Ribiere共轭梯度法(CGP)、Scaled共轭梯度算法(SCG);拟牛顿及其他优化算法:拟牛顿算法(BFG)、一步正割算法(OSS)、Levenberg-Marquardt算法(LM)。1.2.3-支持向量回归模型(-SupportVectorRegression,-SVR)-SVR是一种基于结构风险最小化原理的超平面模型。通过核函数将低维空间中难以区分的

10、向量通过非线性变换映射至高维空间中使其线性可分,借助惩罚因子C和核参数gamma降低数据与超平面之间的残差,以到达提高模型精度的目的17。因此改变核函数类型以及C、gamma参数可以有效降低误差,得到最优-SVR模型。常用的核函数方法包括线性核函数(Line)、多项式核函数(Polynomial)、径向基核函数(RBF)等。其中C、gamma参数通常选用网格搜寻法,即设定两个参数的范围,按一定步长进行组合建模。但是这种方法费时费力且精度不高,因此本文选用遗传算法(GeneticAlgorithm,GA)进行参数寻优。GA是一种通过模拟物种进化过程研发的一种全局搜索优化算法。通过生成一个初始群体

11、并对数据进行编码、选择、杂交、变异,不断生成新的组合,计算每个组合的适应度,通过“优胜劣汰的方法不断筛选最优个体,并以适应度到达最大时的结果作为最优参数,并以K折交叉检验对参数的解释能力进行评估。综上所述,GA是一种通用性很强的参数寻优方法,在机器学习中也有着广泛的应用24。1.2.4随机森林回归模型(RandomForest,RF)RF是一种基于bagging回归的集成学习算法。通过对样本数据进行随机且有放回重复采样得到多个样本组合,并通过节点分裂和随机特征变量的随机抽取形成多个决策树形成“森林,对每个决策树得到的结果进行加权平均,作为样本的回归结果25。由于每次采样中总有大约三分之一的样本

12、未被选用,它们被称为袋外数据(out-of-bag,oob)。因此可利用这局部数据计算袋外错误率(out-of-bagerror)代替交叉检验作为验证模型泛化能力的标准,使得随机森林可以有效的防止过拟合现象26。本文通过控制变量的方法对决策树个数(ntree)、最小叶子大小(minleaf)、随机抽取变量个数(mtry)3个参数进行寻优,以得到最优的RF模型。其他参数均选用软件默认设置。1.3模型评价与检验指标本文选用确定系数(R2)、平均绝对误差(MAE)、均方根误差(RMSE)、相对均方根误差(RMSE%)评价模型拟合和预测的能力,并通过平均相对误差(MRB)检验模型预测偏差的大小。为评价

13、模型的无偏估计能力,选用z检验判断模型泛化结果与真实值是否存在显著差异19。2结果与分析2.1NLR模型通过最小二乘法得到3个参数分别为503.706010、1=1.5126、2=1.5662。最终二元材积表达式为51.51261.5662VDH3.706010。2.2BP模型通过胸径D、树高H和材积V建立三层BP模型,采用10折交叉检验的方法对训练样本分别进行算法优选和神经元参数寻优。为保证不同算法在统一标准下比照分析,模型的其他参数统一设置如下:隐含层神经元个数为8、最大训练次数为2000、训练目标误差为0.00001、学习速率为0.05、动量为0.9,其余参数均采用软件默认数值,并采取提

14、前终止的方法防止模型过拟合。可以看出在3种梯度下降算法中RP算法的4个评价指标均明显由于其他两种。通过比拟可以看出4种共轭梯度算法的精度总体差距不大,其中CGF算法的R2略高于其他三者,但在RMSE、RMSE%、MAE的表现不如CGB算法,拟合误差相对较大。在其他三种优化算法中LM算法无论在拟合优度和误差检验均为最正确,相比于其他算法R2提高1.13%5.26%,RMSE降低13.12%39.81%,RMSE%降低17.41%42.46%,MAE降低14.97%45.94%。因此将LM算法作为BP模型的训练算法。根据经验公式计算可得隐含层神经元个数在312之间,通过试错法依次建模比拟,在隐含层

15、神经元个数为7时模型R2最高且RMSE最低。综上所述,最优BP模型为LM-DH-7-V。2.3-SVR模型-SVR通过核函数将数据映射至高维空间中,寻找样本期望风险最小的最优超平面实现线性回归。本文采用遗传算法对三种常见的核函数:线性核函数(Line)、多项式核函数(Polynomial)、径向基核函数(RBF)进行参数寻优,具体参数设置如下:最大进化数为200,种群进化数量为20、变异值为0.9、不敏感损失参数p=0.01、惩罚因子C搜索范围(0,30)、核参数gamma搜索范围(0,10),并通过10折交叉检验得到3组最优的模型参数。可以看出精度最高的核函数是RBF,其次是Polynomial和Line核函数。相比于前两者R2分别提高1.8%和11.11%,RMSE降低21.46%和52.82%,RMSE%降低21.44%和52.83%,MAE降低31.69%和59.02%,由此可见RBF不仅可以提高拟合能力,更能很好的降低误差,应选用RBF作为-

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号