第二章-原始数据的处理方法

上传人:大米 文档编号:488856571 上传时间:2023-01-18 格式:DOC 页数:16 大小:213.50KB
返回 下载 相关 举报
第二章-原始数据的处理方法_第1页
第1页 / 共16页
第二章-原始数据的处理方法_第2页
第2页 / 共16页
第二章-原始数据的处理方法_第3页
第3页 / 共16页
第二章-原始数据的处理方法_第4页
第4页 / 共16页
第二章-原始数据的处理方法_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《第二章-原始数据的处理方法》由会员分享,可在线阅读,更多相关《第二章-原始数据的处理方法(16页珍藏版)》请在金锄头文库上搜索。

1、第二章 原始数据的处理方法原始数据的处理是数据分析中极为重要的内容。在本节中,我们将介绍原始数据的来源及其特点,着重阐述原始数据初始变换的几种方法,并利用例子进行演示。第一节 原始数据的来源及其特点原始数据一般包括反映自然资源区域特征,如海况、气象、水文、地形、地貌、动植物等;反映区域社会经济条件和生产力水平,如人口及其人口密度、捕捞劳力、海域面积、渔船数量、渔船功率以及渔业总产值、捕捞产值、养殖产值等。原始数据按其性质大体可分为(1)科学实验和观测数据;(2)社会经济统计数据;(3)生产经验数据;(4)有关部门的决策和目标数据;(5)定性资料的量化数据等。不同的数据有不同的来源。但归纳起来,

2、主要的来源有:(1)国家统计部门和行业部门的历年统计资料,这些多为社会经济指标;(2)有关业务部门的历年观测数据及其科学实验报告,这些多数为自然因素指标,如东海区渔业资源和环境观测数据;(3)选择有代表性的单位或年度,进行实地典型调查所得的数据;(4)区域规划部门通过收集、调查、观察和计算积累的数据;(5)调查访问有实践经验的劳动者、生产技术人员、科研人员以及管理人员所得的数据;(6)国家有关部门制定的发展规划、建设方案等决策数据;(7)其它方面的数据。我们将以上所获得的各种资料和数据成为原始数据。这些数据来源不同,其类型也不同。从利用分析的角度来看,这些数据有以下几个主要特点:(1)不同的量

3、纲。如渔业产值为元,渔业产量为公斤,水温为摄氏度,作业时间为天,航程为海里,捕捞努力量为吨、千瓦、艘、人数,CPUE为吨/天、吨/小时、吨/千瓦等。(2)数量级大小相差悬殊,有的数字仅是小数级,有的数字大到亿万。如渔业产值以亿万元或万元计算,而劳动生产率只有几十元到几百元;渔业资源量上千万吨或几万吨等。(3)大部分数据有一定的随机性,特别是统计或观测的时间序列或偶测值,不论是自然指标还是经济数据,都有随机变化,均有明显的摆动。(4)大量数据具有一定的灰色度,运用上述方法收集来的数据绝大多数是区域内各样点的平均值或统计值,在时间上或空间上并不是一个确切的白色参数,而是一个有上限、下限的灰色数。如

4、某调查船进行的渔业资源和环境调查,其所得的数据只能是某一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值产生误差,这一误差值的多少无法知道,因而产生了灰区。如某年某区的降水量,是该区内各次实际观测纪录的平均数,由于测量方法不同和在时间计算上引起的误差等,是无法知道的。同样的问题在一些经济统计数字中也存在。因此,严格地说,收集来的数据绝大多数是灰色参数,都具有不同程度的灰色度。第二节 原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参数来说,需要进行白化或淡化处理,以提高白色度,减少灰色度。也就是说通过信息的不断补充,使灰色参数逐渐成为一个比较接近实际的数值。数据白

5、化处理的方法主要有:(1)直接采用距样点最近观测站的多年平均值。例如海水温度和盐度等,可采用多年来的观测平均值或近几天的平均值。(2)根据各个因素指标的等值线图,利用插入法计算其数值。如表层水温、盐度、海底地形等指标,各代表样点不完全有现成的准确观测值,可在“等水温线图”、“等盐度图”、“地形等高线图”上,利用插值法计算出其白化值。(3)结合实际情况和数据特征,确定合理的数据。如反映海洋环境质量的指标有有机质、含氮量、含磷量等。在使用时,我们不可能把所有的因子都输入模型,为了计算上的方便,可以归结为一个综合指标。即用该区域内最新资料,查出各样点的各项因素指标,然后用“极差变换”的方法求出变换后

6、的数据,相加即可得到一个综合性数字。这样,可解决各因素间量纲不同和数量级大小相差悬殊的问题。(4)对经济指标进行预测。海洋经济的分类划区应当有相对的稳定性,同时应用的综合指标又应反映海洋经济的动态特征,所以,在使用相应的指标数据时,就需要先对指标数据进行发展预测,然后根据预测值进行分类划区。预测的方法很多,常用的是灰色系统GM(1,1)模型和指数递增率模型。(5)采用具有相同权数的相对数值。根据统计学原理,各个个体应该是等权的,但实际上各种统计对象个体不等积,不等形,也即存在着不等权问题。例如,各样点的海域面积、人口产量、产值等指标,绝对值差别很大,无疑是不等权的。如果用特定范围内海域比重、人

7、口密度、单位平均产量、人均产值等相对数来表示,便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点,进行统计分析建立数学模型有一定的困难和限制,因此需要根据所建数学模型的类别,对原始数据进行变换。变换的目的主要是:(1)使指标数据尽可能呈正态分布;(2)统一变量指标间的量纲;(3)使两变量指标的非线性关系变换为线性关系;(4)用一组新的、指标数量较少的、相互独立的变量,代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计分析,要求变量总体上服从多元正态分布,且要求量纲一致。如判别分析要求变量呈正态分布;回归分析则要求因变量

8、呈正态分布,要求各自变量与因变量之间有密切的相关关系。而聚类分析则要求各变量量纲一致,变量间互相独立。因此,数据的变换一定要根据数学模型的要求,有的放矢地进行。常用的变换方法主要有:(一)标准化变换计算公式为:=(i=1,2,N样点数;j=1,2,P变量数)式中:为变换后的数据;Xij为原始数据;为第j变量的算术平均值,即=;Sj为变量j的标准差,即Sj=。变换后的各变量数据平均值为0,方差为1,呈标准正态分布,各变量间有了统一的量纲,而两个变量在变换前后的相关程度不变。从几何意义上讲,标准化变换相当于座标原点移至重心(即平均值)位置,标准化变换适用于量纲不同且数量级大小不一的连续性数据。我们

9、现在以陈新军的博士学位论文渔业资源可持续利用评价实证分析中有关数据进行说明。19781984年东海区渔业资源可持续利用系统的资源环境子系统如下:年份1978197919801981198219831984X12.642.722.732.722.642.632.54X263.1959.1246.4851.0648.1838.641.03X343.641.156.958.562.264.567.7X469.78559.44651.04743.15636.68429.15224.835X52.6092.2441.5471.4791.4351.2991.258X61.1781.051.0380.956

10、0.9350.8750.891其中:X1为渔获物的营养级,单位为级;X2为优质鱼类产量占海洋捕捞产量的比重,单位为;X3为非选择性渔具捕捞产量占海洋捕捞产量的比重,单位为;X4为单位机动渔船的平均捕捞产量,单位为吨/艘;X5为机动渔船每吨位的平均捕捞产量,单位为吨/船吨位;X6为机动和非机动渔船每千瓦的平均捕捞产量,单位为吨/千瓦。在资源环境子系统中,各评价指标的单位不一样,因此需要进行初值化。现分别求出序列X1、X2、X3、X4、X5和X6的平均值及其标准差。 则数据变换为:其他数据变换类同。则获得经过变换后的资源环境子系统的各个序列:年份19781979198019811982198319

11、84X1-0.290.861.000.86-0.29-0.43-1.71X21.511.05-0.360.15-0.17-1.23-0.96X3-1.25-1.490.050.210.570.791.11X41.530.900.38-0.11-0.50-0.97-1.23X51.751.05-0.29-0.43-0.51-0.77-0.85X61.710.550.44-0.31-0.50-1.05-0.90(二)极差变换计算公式为:=式中:为变换后的数据;Xij为原始数据;Xjmax为第j变量原始数据的最大值;Xjmin为第j变量原始数据的最小值。极差变换后的数据有了统一的量纲,其最大值为1,

12、最小值为0,所有数据变化在01之间。变换前后两两变量之间的相关程度不变,其几何意义相当于把座标原点移至最小值位置。极差变换适用于量纲不同、数量大小不一的连续型的原始数据的变换。同样以上述例子进行分析。先求出各个指标的最大值和最小值。它们分别为:X1max = 2.73 X1min = 2.54 X2max = 63.19 X2min = 38.60 X3max = 67.70 X3min =41.10 X4max = 69.79 X4min = 24.84 X5max = 2.61 X5min = 1.26 X6max = 1.18 X6min = 0.88则其数据变换为:其余数据转换类同。则

13、可获得经过极差变换后的资源环境子系统各序列:年份1978197919801981198219831984X10.530.951.000.950.530.470.00X21.000.830.320.510.390.000.10X30.090.000.590.650.790.881.00X41.000.770.580.410.260.100.00X51.000.730.210.160.130.030.00X60.990.570.530.250.1800.04(三)均值化变换计算公式为:=式中:为变换后的数据;Xij为原始数据;为第j变量的平均值。变换后的数据有了统一的量纲,数值均大于0,且集中在1

14、附近。其数学期望值为1,而变量与平均数之差的期望值为0。此变换适用于比例变量,如长度、体积、质量等。我们仍然以上述数据作为例子进行分析,我们已求得各个序列的平均值,则相应的变换值为:其余数据类同。则可获得资源环境子系统经过均值化后的序列:年份1978197919801981198219831984X10.991.021.031.020.990.990.95X21.271.190.941.030.970.780.83X30.770.731.011.041.101.141.20X41.561.321.140.960.820.650.55X51.531.320.910.870.840.760.74X61.191.061.050.970.940.880.90(四)初值化变换计算公式为:=式中:为变换后的数据;Xij为原始数据;Xi1为第i变量的初值(第一个数据)。初值化变换后的数据具有了统一的量纲,各数值均为初值的倍数,便于分析因素之间序列的关联性,因此适用于处理社会经济

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号