环境数据统计与分析

资源描述

《环境数据统计与分析》由会员分享，可在线阅读，更多相关《环境数据统计与分析（81页珍藏版）》请在金锄头文库上搜索。

1、第二章环境数据统计与分析2 环境数据统计与分析 2.1 数据统计与分析的基本范畴 2.2 常用的统计指标 2.3 环境样本特征推断 2.4 参数估计 2.5 显著性检验 2.6 直线相关与直线回归 2.7 环境数据统计与分析的计算机处理 2.8 可疑值的取舍2.1 数据统计与分析的基本范畴2.1.1 总体与样本统计学中，把性质相同的研究对象的所有观测结果的集合称为总体(population)。总体又分为无限总体和有限总体。在实际工作中，常常是从被研究的总体中随机抽取部分观测结果进行研究。每个部分观测结果的集合称为样本。从总体中随机抽取样本用以推断总体的方法称为抽样研究。 2.1.

2、2 参数与统计量统计指标统计学中，把根据规定的函数关系计算出的描述总体或样本特征的函数值称为统计指标（index）。参数由总体资料计算出的统计指标称为参数（ parameter），用于描述总体特征。统计量由样本资料计算出的统计指标称为统计量（ statistic），用于描述样本特征。2.1.3 变异与误差变异（variation）变异指观测结果之间实际存在的差异。误差（error）误差指观测结果与真实值之差及统计量与参数之差。过失误差（gross error）过失误差可以避免；系统误差（systematic error）系统误差可以减少；随机误差（random error

3、）随机误差无法消除。 2.2 常用的统计指标 2.2.1 平均数 2.2.2 变异数 2.2.3 相对数2.2.1 平均数定义平均数（average）是表示观测值的平均水平的统计指标，常用的有算术平均数、几何均数及中位数。 2.2.1.1 算术均数定义算术均数（arithmetic mean），简称均数，常用、希腊字母表示，表示样本均数，表示总体均数。均数适用于正态分布资料统计。计算方法直接计算法频数-加权计算法直接计算法当观察值的个数不多时，将所有观察值x1，x2 ，x3，xn直接相加，其和除以观察值的个数n ，即为均数。计算公式：式中，算术平均数x1，xn 各观察值

4、求和符号x 观察值总和n 观察值的个数频数-加权计算法对一个随机事件作重复观察，其中某观察值出现的次数称频数；各观察值对应的频数称为频数分布；显示各观察值对应的频数的表格称为频数分布表，简称频数表。频数-加权计算法计算步骤计算全距找出观察值中的最大值、最小值，并计算全距（range），全距最大值最小值。定组段数一般取815个为宜，多取10个，组段数太多，计算较繁，组段数过少则误差较大。定组距（class interval）相邻两组段下限值之差为组距（class interval）。各组段的组距可以相等，也可以不等。若拟定为相等组距，则组距全距/组段数，为便于观察

5、值归组，组距常取整数。定组段（class range）即定各组数据的上下限，俗称“封口”。通常，某组段的最小值为下限 (lower limit)，相邻较大组段的下限即本组段的上限(upper limit)。第一组段应包括最小值，最末组段应包括最大值。计数（fi）划分组段后，将原始数据以适当方式划记计数（常用“正”字法）归组。得频数分布表。计算组中值(Class mid-value)（xi）组中值计算均数将各组段的频数与组中值之积相加求和，再除以总频数即得均数。 2.2.1.2 几何均数定义几何均数（geometric mean，G），也叫倍数均数，当观察值相差较大甚至

6、成倍数关系时，如用算术均数表示其平均水平时受少数特大或特小值影响较大，则用几何均数来表示其平均水平。计算步骤先对观察值取数值，计算对数值的均数后，再查反对数，即得几何均数。计算方法直接计算法频数表法直接计算法频数表法当观察值较多时，可先编频数表，再按频数表计算几何均数。2.2.1.3 中位数定义中位数（median，M，Md）指全部观察值按大小顺序排列，居于中间位置的数值。偏态分布资料，一端或两端有不确定数值分布的资料，分布情况不清的资料，适宜用中位数统计。计算方法直接计算法频数表法直接计算法样本含量n较少时，先将观察值按大小顺序排列，再进行计算。频数表法

7、中位数是一个特定的百分位数，在全部观察值中有一半比它大，一半比它小。当例数较多时，先将观察值编制频数表，再按公式计算。 2.2.2 变异数定义变异数是表示观察值变异水平的统计指标，常用指标有极差、方差、标准差和变异系数等。 2.2.2.1 极差定义亦称全距（rangc，R），即一组观察值中最大值与最小值之差。 RXmaxXmin 特点全距反映了变异的范围，极差大，变异度大；极差小，变异度小。缺点用极差表示变异程度的大小简单明了，但它仅考虑了观察值的最大值和最小值，而没有考虑其他数值，因此是不够全面的。 2.2.2.2 方差要克服全距的缺点，必须全面考虑到每个观察值。首先考虑

8、用每一个观察值与均数之差的和即离均差总和（x ）来描述。再考虑用离均差平方和（x ）2来描述。最终考虑用离均差平方和的均数即方差S2来描述。 2.2.2.3 标准差定义为了保持与原观察值及其均数的单位一致，将方差开平方，即得标准差，以S表示。特点标准差直接表示观察值分布的离散程度，间接反映样本的代表性。在观察单位数相同，均数相近条件下，标准差较大，表明观察值的变异程度较大，即观察值围绕均数的分布较离散，因而样本的代表性较差；反之，标准差较小，表明观察值的变异程度较小，观察值围绕均数的分布较密集，样本的代表性好。2.2.2.4 变异系数定义对均数相差较大或性质不同的资料，不能

9、直接用标准差比较变异程度的大小，要用变异系数作比较。特点与标准差一样，变异系数愈大，表明观察值的变异程度愈大，变异系数愈小，表明变异程度愈小。 2.2.3 相对数定义环境研究直接观测到的数据称为绝对数，绝对数虽然能反映调查中所发现的某种现象的绝对水平，但作深入分析时，仅看绝对数是不够的，必须考虑使用相对数（relative number），即两个有联系的指标之比。常用相对数有率、比等。 2.2.3.1 率定义率（rate）是某一现象发生的频度（频繁程度）或强度，通常指在一定条件下某种现象实际发生的次数与可能发生该现象的总次数之比。率= 率的比例基数可用100、100

10、0、10,000、100,000等分别称为百分率，千分率，万分率，或十万分率。环境监测常用的率有：检出率回收率最高浓度出现率残留率超标率 2.2.3.2 构成比定义构成比（constitution ratio）是事物内部某种构成部分对总体之比。说明部分在总体中所占的比重，是一种用来表示事物内部各构成情况的指标。构成比 2.2.3.3 相对比定义相对比（relative ratio）指两个有关联的同类指标的比。以倍数或百分数()来表示，其计算式：相对比= 常用的相对比有倍数、指数、系数等。倍数在大气监测中，经常用测定值与国家卫生标准值的比较来评价车间、工厂或大气的污染

11、程度。指数（index）环境保护研究中，指数是环境污染物的实测浓度对该污染物在环境中的容许浓度的比值，是环境质量评价的常用手段。 I I ：环境质量指数C：污染物实测平均浓度 S：污染物容许标准。系数如排毒系数，环境污染物的排放浓度对该污染物的排放标准的比值，用于表示各种污染物和污染源对环境的毒害的潜在能力。2.3 环境样本特征推断环境样本特征主要指环境样本的分布形式和环境样本的正常值范围等，可以利用获得的统计量进行统计处理，完成上述推断工作。2.3.1 样本特征推断的理论基础正态分布定义正态分布（normal distribution）又称高斯分布(Gaussian

12、Distribution)，是以均数为中心的对称钟型分布。正态曲线是一条高峰位于中央，两侧完全对称并逐渐下降但永远不与横轴相交的钟形曲线正态曲线由和两个参数决定，为总体均数，为总体标准差。决定正态曲线的位置，决定正态曲线形状。2.3.2 样本特征推断样本分布形式的判定确定正常值范围确定样本所代表总体的理论频数分布2.4 参数估计定义探知研究对象的总体特征是环境研究的主要目标，由于总体庞大的原因，直接计算参数是极其困难的，因此，往往用样本统计量来估计总体参数，这个过程称为参数估计（estimation of parameter）。本节主要讨论总体均数估计的基本问题。

13、总体均数估计分为点估计和区间估计。点估计（point estimation）是根据一个样本求出总体参数的具体数值，常用根据极大似然法原理导出的公式计算极大似然估计量。由于存在变异和抽样的随机性，用不同的样本推断总体时，可能得到不同的参数估计值。因此更稳妥的办法是采用区间估计。 2.4.1 总体均数区间估计的理论基础t分布 2.4.1.1 抽样误差定义对样本的统计结果与总体的“真实”之间必然存在差异，这种由于抽样而引起的样本与总体之间的差异称为抽样误差。标准误差样本均数的标准差称为标准误差，。计算公式为：在实际工作中，总体标准差常属未知，只能用样本标准差S代替作为最佳的无偏

14、估计，于是标准误的计算公式变为：2.4.1.2 描述样本均数的分布t分布从一个均数为，标准差为的正态总体中，随机抽取含量为n的样本，可计算样本均数，样本标准误，则将样本均数与总体均数的离差以样本标准误为单位，得正态（离）差 t ，若干样本的t值就构成统计上著名的t 分布。实际工作中总体标准差往往是不知道的，只能用样本标准差S来代替，于是得 t 2.4.2 总体均数的区间估计区间估计（interval estimation）按预先给定的概率，由一个样本均数及其标准误求出总体均数数值范围的过程。 “预先给定的概率”也称为可信度、可信水平、可信系数，符号为1-，常取0.99或

15、 0.95。 “总体均数数值范围”也称为可信区间，符号为CI。其含义是：由一个样本均数及其标准误求出的被估计参数值有0.99或0.95的可能在此数值范围内，或由若干个样本均数及其标准误求出的若干个被估计参数值中，有99或 95的个数可能在此数值范围内。 2.4.3 总体率的区间估计可仿照总体均数的可信区间估计的方法来估计总体率的所在范围，即求总体率的可信区间，我们介绍两种方法。正态近似法当n足够大，且p和（1-p）不接近零，有np和n（1-p）均大于5时，总体率的可信区间为：式中u为可信度1-时的标准正态离差，由u界值得知，如99可信区间时，0.01，u2.58，95可信区间时，0.05，u1.96。查表法当n1000，pl时，可查附表3（百分率的可信限表），得到总体率的可信区间。 2.5 显著性检验两均数差异显著性检验样本均数与总体均数的差异显著性检验两样本均数的差异显著性检验两个几何级数样本均数的差异显著性检验配对资料的差异显著性检验两个大样本均数的显著性检验u 检验方差不齐的两样本均数差异的显著性检验

展开阅读全文