新冠肺炎疫情时间序列相对严重程度指标

上传人:公**** 文档编号:488110939 上传时间:2023-08-08 格式:DOCX 页数:6 大小:18.09KB
返回 下载 相关 举报
新冠肺炎疫情时间序列相对严重程度指标_第1页
第1页 / 共6页
新冠肺炎疫情时间序列相对严重程度指标_第2页
第2页 / 共6页
新冠肺炎疫情时间序列相对严重程度指标_第3页
第3页 / 共6页
新冠肺炎疫情时间序列相对严重程度指标_第4页
第4页 / 共6页
新冠肺炎疫情时间序列相对严重程度指标_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《新冠肺炎疫情时间序列相对严重程度指标》由会员分享,可在线阅读,更多相关《新冠肺炎疫情时间序列相对严重程度指标(6页珍藏版)》请在金锄头文库上搜索。

1、新冠肺炎疫情时间序列相对严重程度指标摘要由严重急性呼吸道综合征冠状病毒2型(SARS-CoV-2)所引起的2019冠状病毒(CoVid-19)疫情正在席卷全球。为了使人们更好地了解、评估和控制此次疫情,本文通过 构造了一系列衡量疫情严重程度的时间序列数据,并利用逐步聚类及降维算法及最小二乘法 回归分析等方法,对疫情已爆发的国家在疫情爆发期内的数据进行了时间序列和横截面的处 理,构造了能够准确量化这些国家在疫情爆发后的疫情走势的疫情相对严重程度指标(Relative Severity Score)o在此基础上,通过对该指标和地理、人文和社会因素做回归分析, 本文发现人口平均年龄、湿度、平均气温和

2、风速对疫情爆发的相对严重程度具有显著的统计 学意义。最后,通过将该指标带入到机器学习模型中使用回归分析对数据进行拟合,本文对 疫情正在爆发的国家的未来疫情发展趋势进行了预测。关键词新型冠状病毒肺炎;逐步聚类降维算法;时间序列分析;回归分析;机器学习;Relative Severity Analysis and Time-series Prediction of COVID-19 OutbreakTanran ZhengInstitute of Industrial Economics, Jinan UniversityGuangzhou, ChinaAbstract: COVID-19, a

3、highly infectious disease caused by virus named SARS-CoV-2, is spreading globally. In order to better understand and possibly contain this ongoing pandemic, this paper conducts a series of data analysis of COVID-19 time-series data of countries and territories to measure and predict the severity of

4、the outbreak. First of all, we develop an index, Relative Severity Score, which measures and quantifies the relative severity of the COVID-19 for each country since its outbreak. Then we conduct regression analysis with this index and other geographical data, which shows that the mean of population

5、age, average humidity, average temperature and average wind speed are statistically significantly correlated to the Relative Severity Score. At last, by performing regression analysis using the Relative Severity Score with machine learning regression model, we make a prediction to the future trends

6、of the pandemic in the countries that are currently experiencing accelerated outbreaks.Key Words: COVID-19; sequential clustering and dimension reduction algorithm; time-series analysis; regression analysis; supervised machine learning;1引言冠状病毒肺炎(CoVid-19)疫情在世界多个国家爆发。2020年2月29日,该疫情被世界卫 生组织定义为全球大流行传染病

7、(pandemic)。截止至3月30日,Covid-19已造成全球超过 75万人被感染,35388人死亡,201个国家和地区有确诊病例1。自疫情爆发以来,已经有 文献和研究对疫情的传播和发展进行建模和预测,但由于大部分传染病模型都涉及到对模型 参数进行估计,预测准确率有限。因此本文希望研究一个基于疫情真实传播情况对疫情走势 的严重性进行评估,并对未来走势进行预测。经过初步分析发现,虽然疫情在各个国家和地区的爆发有时间差,但疫情走势具有高度相似 性,因此本文通过将各个国家和地区在疫情爆发后的疫情数据放在同一时间轴上进行横截面 分析,可以量化和比较不同国家和地区在爆发后的疫情严重程度,即疫情相对严

8、重指标(Relative Severity Score)。疫情相对严重指标可以对比和判断不同国家和地区的疫情发展情况。有研究指出,疫情的严 重程度也取决于不同地区的客观因素2。因此得到疫情相对严重程度指标后,本文进一步分 析地理、人文和社会因素(如平均气温、人口密度、卫生及医疗资源等)对疫情爆发严重性 的影响,通过最小二乘法(Ordinary Least Squares, OLS)3回归分析,寻找和判断在统计学意 义上对疫情传播或严重程度有显著影响的因素。最后,根据疫情相对严重指标,本文利用机器学习模型中的回归分析(Regression Analysis) 对疫情的未来走势进行预测。2方法2.

9、1样本选择在样本选择方面,本文为了确保样本间有可比性,选择了 COVID-19已经开始有传播或输入 病例的国家作为样本。根据约翰霍普金斯大学截止至2020年3月31日的确诊人数数据1, 本文选取了累计确诊人数超过100人的国家作为数据样本。在计算疫情相对严重指标时,由 于样本中的中国的湖北省和美国的纽约州疫情相对于各自的国家非常严重,是疫情爆发的重 点地区,其累计确诊人数一直占其所属国家的确诊人数40%以上截止至2020年03月30日, 数据来源约翰霍普金斯大学;并且中美两国国土面积较大,疫区相对分散,因此本文将这两 个地区的数据单独列出进行分析。2.2数据分析时间段的选取由于每个国家疫情集中

10、爆发时间不同,为了使疫情爆发情况具有横向比较性,本文统一将确 诊人数达到100人作为疫情集中爆发的标志,以此日期开始,分析之后40天的疫情走势。 例如,中国湖北省的确诊人数于1月19日首次破百,达到121人,因此对于湖北省而言,1 月19日为day-1 ;意大利的确诊人数于2月24日首次破百,达132人,因此2月24日为意 大利的day-1。通过该方法可以将不同时期爆发的疫情的时间序列数据对齐,在同一横截面 上对疫情严重程度进行对比分析。2.3构造量化疫情严重程度的指标为了对每个国家的疫情情况进行横向对比,需要选取指标对疫情的严重程度进行量化。确诊 人数、死亡人数、治愈人数和新增确诊人数是全球

11、披露疫情情况使用的主要数据,然而这三 个数据的横截面可比性不高,因为每个国家和地区的人口基数、确诊人数基数都有很大差别, 也并没有直接涵盖疫情的爆发速度的信息。因此本文选择根据这三个数据构建了 11个具有 横向可比性的衍生指标,利用这11个衍生指标对疫区情况进行横向对比。2.4模型方法2.4.1逐步聚类及降维算法首先,为了保证源数据工整,模型对2.3节中介绍的所有衍生指标进行数据预处理,即异常 值填充、绝对中位差去极值(Median Absolute Deviation, MAD)4和Z-Score标准化,确保所 有指标免除离群值和错误数值的干扰,并将所有指标化为相同的量纲5。由于指标个数较多

12、, 且这11个指标基本上都由确诊人数、死亡人数和治愈人数这三个原始数据衍生而来,因此 指标间也存在一定的多重共线性。因此模型在对数据进行预处理后,利用逐步聚类及降维算 法(Sequential Clustering and Dimension Reduction Algorithm)6对指标进行聚类和降维,排 除指标间的多重共线性,使得后续的回归模型和预测模型能更好地提炼指标的有效信息7。逐步聚类及降维算法是一种处理多维度时间序列的算法,该算法主要通过借鉴K临近算法和 贪心算法的思想,按一定顺序逐步对时间序列数据进行聚类;得到已聚类分组的数据后,在 每一组内进行逐步普通最小二乘法回归分析,得到

13、的残差作为新数据;最后对每组内数据进 行加权平均,在每个组别内合成为一组新的数据,最终达到降维的效果6。首先对原始指标的相关性进行分析,通过表(2)可以看到,有个别指标的时间序列相关性 大于0.6,存在较高的多重共线性。如:当日确诊人数增速和当日死亡人数增速的相关性高 达0.92,都反映了疫情爆发的速度;每一百万人的累计确诊人数和每一百万人现存感染人数 在疫情集中爆发期间相关性也高达0.94。这些因子间的多重共线性都需要被处理。通过逐步聚类降维算法处理后,原始的11个指标被聚类、降维,然后重新组合成了新的7 个指标。处理后指标的相关性显著降低,见表(3),时间序列指标间的多重共线性基本排 除,

14、更有利于后面模型的分析及预测。2.4.2计算相对严重程度对数据进行降维后,对每个国家/地区的新指标加权求和,之后在横截面统计取Z-Score,得 到每个时间截面上国家i在时间点t的疫情相对得分。通过将这些时间截面上的得分在时间 序列上累计求和(Cumulative Sum)8,可以得到时间序列上国家i的相对严重程度。公式如 下:其中T为疫情爆发至今的时间;n=7,即7个新指标。2.4.3回归分析有研究指出,疫情的严重程度也取决于不同地区的客观因素2。因此得到疫情相对严重程度 指标后,本文进一步分析客观条件对疫情爆发严重性的影响。本文以确诊人数超过100人的 国家作为样本,分别选取了以下指标对累

15、计确诊人数、致死率和相对严重程度指标进行回归 分析:通过对这些地理、人文和社会因素指标进行回归分析,可以判断这些因素是否对疫情的严重 程度数据有显著统计学意义;若有统计学意义,这些因素与疫情的严重程度是正相关还是负 相关。2.4.4未来预测通过将样本中的湖北省、中国、韩国和日本标记为疫情已相对稳定地区”,其他国家标记为 “疫情正在爆发地区”,本文通过将疫情相对严重程度指标输入到机器学习模型中进行回归拟 合910,对比疫情已相对稳定地区的时间序列,对疫情正在爆发地区的后续发展进行预测。 公式如下:其中i代表疫情正在爆发地区,j代表疫情已相对稳定地区,f代表机器学习模型的拟合函数。3结果3.1各疫

16、情爆发国家的相对严重程度通过公式(1),本文计算出了国家/地区样本的疫情相对严重指标,详见图(1)。图1.各国家/地区相对严重程度指标(部分样本)Figure 1. Relative severity score by country/region (part of the samples)从图(1)可以看到,相对严重指标准确地量化了不同国家和地区的疫情相对严重程度:纽 约州和西班牙在爆发后由于累计确诊人数快速增长且数量较高,成为疫情爆发最快的地区, 在爆发后20天就超过了同样是疫情重灾区的湖北省;意大利也因为其致死率高和确诊人数 增长较快、数量较多,成为已爆发地区中疫情最严重的地区;日本、德国、韩国和中国因为 致死率较低,且确诊人数很快得到控制,疫情严重度相对较低,但其中日本近日的疫情又有 反转的趋势,需要额外警惕。从回测的角度看,该指标算法衡量的疫情相

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号