数据可靠性是研究的基石.

上传人:今*** 文档编号:105922948 上传时间:2019-10-14 格式:DOC 页数:20 大小:209.50KB
返回 下载 相关 举报
数据可靠性是研究的基石._第1页
第1页 / 共20页
数据可靠性是研究的基石._第2页
第2页 / 共20页
数据可靠性是研究的基石._第3页
第3页 / 共20页
数据可靠性是研究的基石._第4页
第4页 / 共20页
数据可靠性是研究的基石._第5页
第5页 / 共20页
点击查看更多>>
资源描述

《数据可靠性是研究的基石.》由会员分享,可在线阅读,更多相关《数据可靠性是研究的基石.(20页珍藏版)》请在金锄头文库上搜索。

1、北京大学光华管理学院(ID:gsmpku)授权转载导读随着PM2.5污染的严重性被越来越多地认识,PM2.5数据的质量也成为人们关心的话题。目前,公众判断所在城市PM2.5污染程度最常用的两大数据源,一是美国驻华大使馆(或领事馆)所发布的数据,二是中国环保部的实时播报。然而,中国环保部所发布的数据真实性却不时遭到质疑,例如华尔街日报就曾在2012年的一篇报道中称:北京官方的PM2.5数据与美国大使馆的数据不一致!也有不少学者著文,研究探讨中国空气污染数据的人为干扰。一些公众也持怀疑态度,认为环保部门“美化”数据的讨论不绝于耳。数据可靠性是研究的基石,如果没有高质量的数据真实反映一个城市大气的污

2、染程度,大气污染防治就无从谈起。因此,北大陈松蹊教授带领的统计科学中心和光华管理学院研究团队,选取北京、上海、广州、成都、沈阳五个城市美国使/领馆及其邻近的环保部站点在2013-2015三年间的PM2.5数据,完成了空气质量评估报告(二):中国五城市空气污染状况之统计学分析,运用统计学方法交叉验证了美国使/领馆和邻近的环保部站点数据的可靠性。(报告大合集已包含本报告,可发送1到数据局后台获取)以下为报告内容的节选和整理为了交叉验证数据的可靠性,我们分别使用美国使/领馆和邻近环保部站点两个独立数据源的PM2.5数据,分析和比较了描述大气污染不同状态的统计量的一致性和相关系数。同时,在剔除气象因素

3、对数据造成的影响后,使用两个数据源的数据分别计算出各站点的PM2.5的月均值和百分位数浓度。通过多方面、多层次的相互对比和相关性分析,我们发现,使用这两个数据源所得到的空气质量评价,有着比较高的一致性。这可以在一定程度上,为公众对中国主要城市空气污染数据质量的评估提供一个参考依据。01数据来源的选取本报告使用的PM2.5数据,来自五个城市的美国使/领馆及其邻近的环保部站点(北京3个,其他城市2个)。其中环保部的数据始于2013年1月1日,美国使/领馆的数据分别起始于:北京,2010年1月1日;上海,2012年1月1日;广州,2012年4月1日;成都,2012年6月1日;沈阳,2013年5月1日

4、。北京上海广州成都沈阳五城市美国使/领馆(蓝色)和邻近的环保部站点(红色)及相应气象站的地理位置图,飞机符号代表各城市机场所在位置(黑色),图片点击可放大。上图显示了五个城市美国使/领馆以及邻近的环保部站点的地理位置。其中,除了广州的第五中学站离美领馆较远(8公里)外,其他环保部站点均与美国使/领馆的距离不超过6公里。对于所有站点,我们研究的数据均截止于2015年12月31日。需要指出的是,美国使/领馆只公布PM2.5的相关数据,而我国环保部站点则会同时公布其他主要污染物的数据。如我们在此前发布的北京城区研究报告(下载地址附后)中所强调的,气象条件对PM2.5的浓度变化影响显著。因此,在这次报

5、告中也重点观察了气象数据。气象数据主要来源于各个城市的机场观测站。其中,北京首都机场的数据来自于http:/weather.nocrew.org/;上海、成都、沈阳的机场数据皆来自于https:/ 1 之间取值,取值接近1表示高度正相关,取值接近-1表示高度负相关,取值接近于0表示无线性相关关系)。上表给出了三个月度指标在不同时间段的相关系数。我们发现,表中给出的总共60个相关系数中有52个在0.9以上,其中低于0.9的只有8个,最小的相关系数不低于0.55。这表明,在剔除了气象因素后,PM2.5的均值、中位数和90%分位数浓度这三个指标,在美国使/领馆和邻近的环保部站点之间,具有高度的正相关

6、性。最后,我们以三年共计36个月的总体情况进行比较,发现在每一个城市里,美国使/领馆和邻近的环保部站点之间的相关系数在这三个指标上的数值全部在0.86以上。成都在三个指标的12个相关系数中,有11个不低于0.95。这说明两点:(1)尽管成都美领馆和与其临近的环保部站点两个数据源计算的PM2.5浓度存在显著差异,但利用二者得到的三个月度指标是高度相关的;(2)两个数据源计算得到的PM2.5浓度的差异可能是由于局部污染排放或测量仪器的差异造成的。综合以上的相关性分析,我们可知,在剔除气象影响后,对比分析美国使/领馆数据与邻近的环保部站点数据,得到的结论更加准确、可靠,同时也再次交叉验证了两大独立数据源数据的一致性。04年度污染浓度变化趋势对比各大城市美国使/领馆的PM2.5观测值,和邻近环保部站点的观测值存在一些差异,可能是由于地理位置的不同所致,也可能是局部排放和污染物测量仪器的不同造成的。为了更全面地检验每个城市在描述空气质量的统计学指标上的一致性,我们比较了美国使/领馆和邻近的环保部站点在剔除气象因素后的年度变化差值,其中我们将环保部各个城市的站点的浓度结果做了平均。气象因素调整后的年度月浓度差值,是某年某月的指标浓度(如均值或90%分位数)减去该月在其它年度的指标浓度。下图分别给出了几个城市(报告为五城市,此处以北京、上海、成都为例)的美国使/领馆和邻近的环保部站点,2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号