第二章_原始数据的处理方法

上传人:壹****1 文档编号:507890508 上传时间:2022-12-19 格式:DOCX 页数:21 大小:46.79KB
返回 下载 相关 举报
第二章_原始数据的处理方法_第1页
第1页 / 共21页
第二章_原始数据的处理方法_第2页
第2页 / 共21页
第二章_原始数据的处理方法_第3页
第3页 / 共21页
第二章_原始数据的处理方法_第4页
第4页 / 共21页
第二章_原始数据的处理方法_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《第二章_原始数据的处理方法》由会员分享,可在线阅读,更多相关《第二章_原始数据的处理方法(21页珍藏版)》请在金锄头文库上搜索。

1、第二章原始数据的处理方法原始数据的处理是数据分析中极为重要的容。在本节中,我 们将介绍原始数据的来源及其特点,着重阐述原始数据初始变换 的几种方法,并利用例子进行演示。第一节原始数据的来源及其特点原始数据一般包括反映自然资源区域特征,如海况、气象、 水文、地形、地貌、动植物等;反映区域社会经济条件和生产力 水平,如人口及其人口密度、捕捞劳力、海域面积、渔船数量、 渔船功率以及渔业总产值、捕捞产值、养殖产值等。原始数据按 其性质大体可分为(1)科学实验和观测数据;(2)社会经济统计 数据;(3)生产经验数据;(4)有关部门的决策和目标数据;(5) 定性资料的量化数据等。不同的数据有不同的来源。但

2、归纳起来,主要的来源有:(1) 国家统计部门和行业部门的历年统计资料,这些多为社会经济指 标;(2)有关业务部门的历年观测数据及其科学实验报告,这些 多数为自然因素指标,如东海区渔业资源和环境观测数据;(3) 选择有代表性的单位或年度,进行实地典型调查所得的数据;(4) 区域规划部门通过收集、调查、观察和计算积累的数据;(5)调 查访问有实践经验的劳动者、生产技术人员、科研人员以及管理 人员所得的数据;(6)国家有关部门制定的发展规划、建设方案 等决策数据;(7)其它方面的数据。我们将以上所获得的各种资 料和数据成为原始数据。这些数据来源不同,其类型也不同。从利用分析的角度来看,这些数据有以下

3、几个主要特点:(1)不同的量纲。如渔业产值为元,渔业产量为公斤,水温 为摄氏度,作业时间为天,航程为海里,捕捞努力量为吨、千瓦、 艘、人数,CPUE为吨/天、吨/小时、吨/千瓦等。(2)数量级大小相差悬殊,有的数字仅是小数级,有的数字 大到亿万。如渔业产值以亿万元或万元计算,而劳动生产率只有 几十元到几百元;渔业资源量上千万吨或几万吨等。(3)大部分数据有一定的随机性,特别是统计或观测的时间 序列或偶测值,不论是自然指标还是经济数据,都有随机变化, 均有明显的摆动。(4)大量数据具有一定的灰色度,运用上述方法收集来的数 据绝大多数是区域各样点的平均值或统计值,在时间上或空间上 并不是一个确切的

4、白色参数,而是一个有上限、下限的灰色数。 如某调查船进行的渔业资源和环境调查,其所得的数据只能是某 一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值 产生误差,这一误差值的多少无法知道,因而产生了灰区。如某 年某区的降水量,是该区各次实际观测纪录的平均数,由于测量 方法不同和在时间计算上引起的误差等,是无法知道的。同样的 问题在一些经济统计数字中也存在。因此,严格地说,收集来的 数据绝大多数是灰色参数,都具有不同程度的灰色度。第二节 原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参数来说,需要进行白化或淡化处理,以 提高白色度,减少灰色度。也就是说通过信息的不

5、断补充,使灰 色参数逐渐成为一个比较接近实际的数值。数据白化处理的方法 主要有:(1)直接采用距样点最近观测站的多年平均值。例如海水温 度和盐度等,可采用多年来的观测平均值或近几天的平均值。(2)根据各个因素指标的等值线图,利用插入法计算其数值。 如表层水温、盐度、海底地形等指标,各代表样点不完全有现成 的准确观测值,可在“等水温线图”、“等盐度图”、“地形等高线 图上,利用插值法计算出其白化值。(3)结合实际情况和数据特征,确定合理的数据。如反映海 洋环境质量的指标有有机质、含氮量、含磷量等。在使用时,我 们不可能把所有的因子都输入模型,为了计算上的方便,可以归 结为一个综合指标。即用该区域

6、最新资料,查出各样点的各项因 素指标,然后用“极差变换”的方法求出变换后的数据,相加即 可得到一个综合性数字。这样,可解决各因素间量纲不同和数量 级大小相差悬殊的问题。(4)对经济指标进行预测。海洋经济的分类划区应当有相对 的稳定性,同时应用的综合指标又应反映海洋经济的动态特征, 所以,在使用相应的指标数据时,就需要先对指标数据进行发展 预测,然后根据预测值进行分类划区。预测的方法很多,常用的 是灰色系统GM (1, 1)模型和指数递增率模型。(5)采用具有相同权数的相对数值。根据统计学原理,各个 个体应该是等权的,但实际上各种统计对象个体不等积,不等形, 也即存在着不等权问题。例如,各样点的

7、海域面积、人口产量、 产值等指标,绝对值差别很大,无疑是不等权的。如果用特定围 海域比重、人口密度、单位平均产量、人均产值等相对数来表示, 便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点,进行统计分析建立数学模型 有一定的困难和限制,因此需要根据所建数学模型的类别,对原 始数据进行变换。变换的目的主要是:(1)使指标数据尽可能呈正态分布;(2)统一变量指标间的量纲;(3)使两变量指标的非 线性关系变换为线性关系;(4)用一组新的、指标数量较少的、 相互独立的变量,代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计

8、分析,要求变量总体上服从多元正态分布,且要求量纲一致。如 判别分析要求变量呈正态分布;回归分析则要求因变量呈正态分 布,要求各自变量与因变量之间有密切的相关关系。而聚类分析 则要求各变量量纲一致,变量间互相独立。因此,数据的变换一 定要根据数学模型的要求,有的放矢地进行。常用的变换方法主要有:(-)标准化变换计算公式为:X, X厂七A.=7 Sj(i=l, 2,,N样点数;j=l, 2,,P变量数)式中:X:.为变换后的数据;X,为原始数据;NX,为第j变量的算术平均值,即幻= 一;Sj为变量j的标准差,文(X厂如2即 Sj=l V N 1变换后的各变量数据平均值为0,方差为1,呈标准正态分布

9、,各变量间有了统一的量纲,而两个变量在变换前后的相关程度不 变。从几何意义上讲,标准化变换相当于座标原点移至重心(即 平均值)位置,标准化变换适用于量纲不同且数量级大小不一的 连续性数据。我们现在以新军的博士学位论文渔业资源可持续利用评价 实证分析中有关数据进行说明。1978-1984年东海区渔业资源可 持续利用系统的资源环境子系统如下:年份1978197919801981198219831984X12.642.722.732.722.642.632.54X263.1959.1246.4851.0648.1838.641.03X343.641.156.958.562.264.567.7X469

10、.78559.44651.04743.15636.68429.15224.835X52.6092.2441.5471.4791.4351.2991.258X61.1781.051.0380.9560.9350.8750.891其中:X】为渔获物的营养级,单位为级;X2为优质鱼类产量 占海洋捕捞产量的比重,单位为; X3为非选择性渔具捕捞产量 占海洋捕捞产量的比重,单位为; X4为单位机动渔船的平均捕 捞产量,单位为吨/艘;X5为机动渔船每吨位的平均捕捞产量,单 位为吨/船吨位;X6为机动和非机动渔船每千瓦的平均捕捞产量, 单位为吨/千瓦。在资源环境子系统中,各评价指标的单位不一样,因此需要 进

11、行初值化。现分别求出序列Xi、X2、X3、X4、X5和X6的平均 值及其标准差。X=(X978 + X1979 + + X984) / 7 = (2.64 + 2.72 +. + 2.54) / 7 = 2.66X2 = (X1978 + X 99 + . + X1984 )/7 = (63.19 + 59.12+ . + 41.03)/7 = 49.67X. = (X1978 + X + + X1984) / 7 = (43.6 + 41.1 +. + 67.7) / 7 = 56.36X4 = (X1978 + X979 +. + X1984)/7 = (69.78 + 59.44 +.

12、+ 24.83)/7 = 44.87X5 = (X278 + X979 +. + X984)/7 = (2.61 + 2.44 +. +1.26)/7 = 1.70N(x 厂 i=lX6 = (X978 + X979 +. + X984)/7 = (1.18 + 1.05 + . + 0.89)/7 = 0.99= 0.07J(2.64 2.66尸 +.(2.54 2.66)2V71SaN2(X又j)2,=1N 1J(63.19 49.67)2 + .R1.03 49.67)2 v= 8.982(X厂对 ,十NTJ(43.6 56.36)2 + .(67.7 56.36)2 v= 10.24N

13、_2(x又 Jj=lN 11(69.78 44.87)2 + .(69.78 44.87)2V71= 16.28N_(xf 2,=1N-lj(2.61-17r+.q.26-12F = ()52V7-1则数雄X:=其则获得N(Xij -又j)2 /=! _/(1.18 0.99)2 +.(0.89 0.99)21 11N-l7-1j:变换为:X“-_2.64-2.66_S0.07;他数据变换类同。!经过变换后的资源环境子系统的各个序列:年份1978197919801981198219831984Xi-0.290.861.000.86-0.29-0.43-1.71X21.511.05-0.360.

14、15-0.17-1.23-0.96X3-1.25-1.490.050.210.570.791.11X41.530.900.38-0.11-0.50-0.97-1.23X51.751.05-0.29-0.43-0.51-0.77-0.85X51.710.550.44-0.31-0.50-1.05-0.90(二)极差变换计算公式为:, X _ X X _ 一 -mm X Xj max jmiii式中:X:.为变换后的数据;X,为原始数据;为第J变量原始数据的最大值;犯|心为第j变量原始数据的最小值。极差变换后的数据有了统一的量纲,其最大值为1,最小值 为0,所有数据变化在0I之间。变换前后两两变量之间的相关 程度不变,其几何意义相当于把座标原点移至最小值位置。极差 变换适用于量纲不同、数量大小不一的连续型的原始数据的变换。同样以上述例子进行分析。先求出各个指标的最大值和最小 值。它们分别为:Xlmax= 2.73X2max= 63.19X3max= 67.70X4max= 69.79Xsmax 2.61X6max= 1.18Xlmm = 2.54X2min= 38.60X3mm=41.10X4mm= 24.84Xsmin 1.26X6mm= 0.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号