基于两种数据集构建广东县级尺度龙眼产量模型效果对比

上传人:杨*** 文档编号:474850298 上传时间:2024-05-02 格式:DOCX 页数:25 大小:40.28KB
返回 下载 相关 举报
基于两种数据集构建广东县级尺度龙眼产量模型效果对比_第1页
第1页 / 共25页
基于两种数据集构建广东县级尺度龙眼产量模型效果对比_第2页
第2页 / 共25页
基于两种数据集构建广东县级尺度龙眼产量模型效果对比_第3页
第3页 / 共25页
基于两种数据集构建广东县级尺度龙眼产量模型效果对比_第4页
第4页 / 共25页
基于两种数据集构建广东县级尺度龙眼产量模型效果对比_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《基于两种数据集构建广东县级尺度龙眼产量模型效果对比》由会员分享,可在线阅读,更多相关《基于两种数据集构建广东县级尺度龙眼产量模型效果对比(25页珍藏版)》请在金锄头文库上搜索。

1、 基于两种数据集构建广东县级尺度龙眼产量模型效果对比* 殷美祥,罗瑞婷,朱 平*,曾钦文,招伟文基于两种数据集构建广东县级尺度龙眼产量模型效果对比*殷美祥1,罗瑞婷2,朱 平1*,曾钦文3,招伟文4(1.广东省气象服务中心,广州 510640;2.广东省突发事件预警信息发布中心,广州 510640;3.广东省河源市气象局,河源 517000;4.广东省佛山市顺德区气象局,佛山 528300)为构建县级尺度龙眼产量动态精细化模拟模型,利用1990-2020年广东省茂名市龙眼生产和国家气象观测站逐日气象数据,分析气象因子对龙眼产量的影响,基于随机森林和逐步回归方法,分别采用不同数据方案建立了化州、

2、高州和信宜龙眼产量动态模拟模型,并进行对比分析。结果表明:广东茂名龙眼产量与气象因子密切相关,最低气温和相对湿度对茂名龙眼产量影响最大,随机森林模型和逐步回归模型入选气象因子个数分别为15个和14个,最大相关系数分别为0.31和0.43。与多元逐步回归法相比,基于随机森林回归法构建的龙眼产量模拟模型准确率较高,模型决定系数(R2)为0.97,提升了7%,平均绝对误差(MAE)为210.16kghm2,下降了52%,均方根误差(RMSE)为289.62kghm2,下降了46%。引入模拟目标区外相似气候特点地区数据重新构建模型后,随机森林回归构建的龙眼产量模拟模型准确率更高,R2提升了3%,MAE

3、下降了32%,RMSE下降了31%,多元逐步回归法构建的模型模拟结果无显著变化。说明基于随机森林回归法构建龙眼产量模拟模型结果可靠,可满足龙眼气象业务服务精细化需求。产量模拟;龙眼;精细化;随机森林回归作物产量模拟是根据作物生长、发育和产量形成过程与气象条件、社会经济发展水平等多种因素的复杂关系,通过构建数学关系模型对农作物产量进行估测的一项专业性气象服务业务12。及时准确模拟作物产量,对于农业宏观调控、农业生产管理、进出口贸易、应对极端气候及粮食安全都有重要的意义37。目前,作物产量模拟方法主要有作物生长模型、遥感估算和数理统计等模拟方法810。作物生长模型模拟方法,是充分考虑气象条件、土壤

4、、管理和品种等因素对作物的综合影响,具有较强的机理性。刘春等11基于能量模型构建了水稻生长模型,分析了水稻最大生长率的出现时间,发现水稻生育后期高温对产量影响比前期受低温影响严重。马玉平等12应用玉米生长模型分析了东北区域气象条件对玉米生长发育及产量形成的影响,评估了平均气候状态下平均模拟生物量确定方法,并进行了个例验证。帅细强等1建立了基于关键气象因子、气候适宜度、作物生长模型的早稻产量预报方法,3种预报方法准确率平均高于93.8%,基于气候适宜度和作物生长模型结合是产量预报的较优法。黄晚华等13阐述了当前基于作物生长模拟模型的产量预报方法进展,认为基于作物机理模型的产量预报方法是未来发展趋

5、势。遥感估产预报方法是利用卫星遥感反演植被指数与作物产量的定量关系构建的产量预报方法1。姬菊枝等14利用极轨气象卫星实时资料与作物绿度值,监测作物生长状况并进行产量预报,发现该方法结合模式预报结果可提高产量预报准确率。陈劲松等15利用数据同化方法提取国产环境卫星数据的水稻叶面积指数,结合作物生长模型,预测水稻产量,修正水稻作物生长模型提高水稻估产精度。近年来,数理统计产量模拟方法已逐渐从线性回归方法发展到机器学习方法1618。刘峻明等19利用随机森林算法,基于河南16a地面观测气象数据与作物产量资料构建冬小麦产量预测模型,预测效果较好,决定系数达到0.84。杨北萍等20利用遥感数据和气象数据,

6、建立水稻产量估算随机森林回归模型,以多元逐步回归模型作为比较模型,随机森林回归模型水稻产量估算精度明显高于多元逐步回归模型。林滢等21利用河南13a气候、土壤、冬小麦遥感数据,采用随机森林算法研究河南冬小麦产量预测最佳时间窗和影响因子,发现12月翌年3月为河南冬小麦产量预测的最佳时间段,月降水量对模型精度影响最大,月最高温度影响最小。王来刚等22基于随机森林算法构建了河南冬小麦产量预测模型,提高了区域冬小麦产量预测精度。近年基于随机森林机器学习的产量模拟方法取得了快速发展,主要集中在水稻、小麦、大豆和玉米等粮食作物,针对龙眼产量模拟的研究成果鲜少报道。此外,上述产量模拟的研究主要应用于国家或省

7、级层面,但实际生产中产量模拟要求越来越精细,亟待区县层面产量模拟业务以满足农业生产的需求。茂名市龙眼产区是广东龙眼重要产区,其龙眼种植面积占粤西龙眼种植总面积的77.6%23,亟需龙眼产量精细化模拟研究业务和服务,对提高地区特色农产品种植和科学经营具有重要的参考。鉴于此,本文以广东茂名龙眼为研究对象,探究龙眼生长发育中气象条件与产量的关系;基于随机森林回归方法构建区(县)龙眼产量模拟模型,与多元逐步回归模型产量模拟结果对比验证,为龙眼精细化产量模拟提供参考。1 数据与方法1.1 数据来源广东省茂名市是龙眼产量的主产区,位于21.2222.42N,110.19111.41E,以茂名市的化州、高州

8、和信宜3个县级市作为研究区域。19902020年广东茂名5个地区(化州、高州、信宜、茂南和电白)的龙眼种植面积和统计产量来自茂名市统计局24,龙眼产量序列为其总产量与种植面积换算得到(kg hm2)。19902020年广东茂名5个典型站(化州、高州、信宜、茂南和电白)逐日气象资料来自广东省气象数据中心,包含平均气温、最低气温、最高气温、日降水量、日照时数、平均风速、相对湿度、低温阴雨日数等。基于所获取的逐日气象数据,计算5个典型站逐旬(全年共计36旬)平均气温()、最低气温()、平均最高气温()、10活动积温()、平均日降水量(mmd1)、平均日照时数(h)、平均风速(ms1)、平均相对湿度(

9、%),共计288个因子数据,以及全年平均气温、最低气温、平均最高气温、10活动积温、平均日降水量、平均日照时数、平均风速、平均相对湿度和低温阴雨日数,共计9个因子,总计297个气象因子数据。参考段海来等26研究成果,龙眼生育期覆盖全年,具体生育期划分为:花芽生理分化期(1月上旬2月下旬,共计6旬)、花芽形态分化期(3月上旬4月中旬,共计5旬)、开花期(4月下旬5月下旬,共计4旬)、果实发育成熟期(6月上旬8月下旬,共计9旬)、抽梢期(9月上旬10月下旬,共计6旬)、休眠期(11月上旬12月下旬,共计6旬)。1.2 模拟模型构建方法1.2.1 气象产量分解根据19902020年3个典型地区(化州

10、、高州和信宜)龙眼种植面积和统计产量计算得到各地区龙眼产量,计算式为式中,Y为龙眼实际产量,Yt为趋势产量,Yw为气象产量,Ei为随机产量,Ei较小一般忽略不计,单位均为kghm2。龙眼趋势产量采用线性拟合方程计算而得,3个地区龙眼趋势产量拟合方程及决定系数如表1所示,结合式(1)分别计算化州、高州、信宜3个地区的气象产量。1.2.2 随机森林回归算法随机森林回归算法(Random Forest Regression,RFR)是由多棵决策树集成的机器学习算法,采用样本和特征双重随机抽样构建决策树集,将所有决策树的计算结果取平均值作为随机森林模型的模拟结果,克服了传统的决策树算法易拟合、精度不足

11、的问题21。训练模型时,通过自助法(Bootstrap)从样本数据集中随机采样k个子集,构建k棵决策树。每次未被抽到的数据称为袋外数据(Out-of-bag,OOB),用来评价模型训练时内部误差和特征的重要程度。理论上随机森林法包含的决策树数量越多,模型测试误差越小,拟合效果越好。当决策树个数达到一定数量,模型测试误差变化很小,此时的决策树数量可作为理想决策树数量。其次,生成每棵决策树时需从M个特征变量中随机选取m个特征变量(m表1 三个典型地区龙眼趋势产量拟合方程及其决定系数注:x为年序号,取值为1,2,31。Yt为趋势产量(kghm2)。Note: x is the year serial

12、 number in 19902020, which is 1, 2, ., 31. Ytrepresent the trend yield(kgha1).1.2.3 多元逐步回归法多元逐步回归法是传统统计学方法,依据所选变量因子与目标因子的相关性,按照模型显著性要求逐个引入或剔除因子,减少多重共线性问题,构建简洁模型。利用龙眼生育期逐旬的气象要素因子与气象产量建立多元逐步回归方程,以 95%显著性为标准,构建 3 个地区多元逐步回归模型,与机器学习方法对比评估龙眼产量模拟能力。1.2.4 模型构建方案以气象因子为特征值、龙眼气象产量为目标值,组成数据样本集。为研究引入相似气候特点的样本集是否

13、会提高产量模拟准确性,在研究区域内构建两个数据集,见表2。第一数据集包含化州、高州、信宜3个区域的297个气象因子数据;第二数据集在第一数据集基础上,增加了与目标区域具有相似气候特点的电白和茂南两个县的297个气象因子数据。采用随机森林回归算法和逐步回归方法构建不同龙眼产量的模拟模型,对比机器学习和传统统计学方法的模拟效果。以模型构建目标区域的20122020年数据样本集作为测试数据集,以模型构建目标区域的19902011年数据样本集和研究区域内非模型构建目标区域的19902020年数据样本作为训练数据集,构建相应的模拟模型。表2 构建模型所需的训练集和测试集划分方案注:训练集和测试集是指筛选

14、出的气象因子特征值及其对应的龙眼气象产量目标值共同组成的数据样本集。Note: The training set and the test set refer to the data sample set composed of the selected characteristic values of meteorological factors and their corresponding target values of meteorological yield of Longan.1.2.5 模型评价指标采用决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)3个模型评价

15、指标,评估3个目标地区龙眼气象产量模型精度。其中决定系数R2越大,模型精度越高;平均绝对误差MAE和均方根误差RMSE的值越小,模型精度越高。计算公式分别为2 结果与分析2.1 建模所需关键气象因子筛选根据19902020年茂名地区5个典型站点气象数据,逐旬和年平均气温、最低气温、最高气温、10活动积温、平均日降水量、平均日照时数、平均风速、平均相对湿度和逐年的低温阴雨日数,总计297个气象因子数据,结合龙眼气象产量,按照95%显著性水平检验标准,筛选88个气象因子及龙眼气象产量与气象因子的相关系数。由表3可知,龙眼不同生育阶段最低气温、平均相对湿度入选因子个数最多(1415个),10活动积温和平均气温入选12个,平均日降水量、平均风速、最高气温、平均日照时数入选因子共810个,说明龙眼生育期内最低气温、平均相对湿度对龙眼气象产量的影响较大。龙眼气象产量与不同生育时段平均风速呈负相关,与3月下旬12月的日降水量呈负相关,与平均相对湿度呈正相关,与很多时段的10活动积温呈正相关,说明大风、阴雨天气、日照不足等均不利于龙眼气象产量的增加。从龙眼不同生育期来看,花芽生理分化期(1月上旬2月下旬),龙眼气象产量与1月上旬最低气温为正相关,与1月中旬最高气温负相关,适当低温有利于抑制营养生长、提高细胞液浓度、促进花芽分化,而温度升高影响花芽分化,引起“冲梢”现象26。花芽形态分化期

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 信息产业

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号