环境数据统计与分析

上传人:宝路 文档编号:47921464 上传时间:2018-07-06 格式:PPT 页数:81 大小:933.33KB
返回 下载 相关 举报
环境数据统计与分析_第1页
第1页 / 共81页
环境数据统计与分析_第2页
第2页 / 共81页
环境数据统计与分析_第3页
第3页 / 共81页
环境数据统计与分析_第4页
第4页 / 共81页
环境数据统计与分析_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《环境数据统计与分析》由会员分享,可在线阅读,更多相关《环境数据统计与分析(81页珍藏版)》请在金锄头文库上搜索。

1、第二章 环境数据 统计与分析2 环境数据统计与分析 2.1 数据统计与分析的基本范畴 2.2 常用的统计指标 2.3 环境样本特征推断 2.4 参数估计 2.5 显著性检验 2.6 直线相关与直线回归 2.7 环境数据统计与分析的计算机处理 2.8 可疑值的取舍2.1 数据统计与分析的基本范畴2.1.1 总体与样本统计学中,把性质相同的研究对象的所有观 测结果的集合称为总体(population)。总体又分为 无限总体和有限总体。在实际工作中,常常是从被研究的总体中随 机抽取部分观测结果进行研究。每个部分观测结 果的集合称为样本。从总体中随机抽取样本用以推断总体的方法 称为抽样研究。 2.1.

2、2 参数与统计量 统计指标统计学中,把根据规定的函数关系计算出的描述 总体或样本特征的函数值称为统计指标(index)。 参数由总体资料计算出的统计指标称为参数( parameter),用于描述总体特征。 统计量由样本资料计算出的统计指标称为统计量( statistic),用于描述样本特征 。2.1.3 变异与误差 变异(variation)变异指观测结果之间实际存在的差异。 误差(error)误差指观测结果与真实值之差及统计量与参数 之差。 过失误差(gross error)过失误差可以避免; 系统误差(systematic error)系统误差可以减少; 随机误差(random error

3、)随机误差无法消除。 2.2 常用的统计指标 2.2.1 平均数 2.2.2 变异数 2.2.3 相对数2.2.1 平均数 定义平均数(average)是表示观测值的平 均水平的统计指标,常用的有算术平均数 、几何均数及中位数。 2.2.1.1 算术均数 定义算术均数(arithmetic mean),简称 均数,常用、希腊字母表示,表示样本均 数,表示总体均数。均数适用于正态分布 资料统计。 计算方法 直接计算法 频数-加权计算法直接计算法当观察值的个数不多时,将所有观察值x1,x2 ,x3,xn直接相加,其和除以观察值的个数n ,即为均数。计算公式: 式中, 算术平均数x1,xn 各观察值

4、 求和符号x 观察值总和n 观察值的个数 频数-加权计算法对一个随机事件作重复观察,其中某观察值 出现的次数称频数;各观察值对应的频数称为频数分布;显示各 观察值对应的频数的表格称为频数分布表,简称 频数表。 频数-加权计算法计算步骤 计算全距 找出观察值中的最大值、最小值,并计算全距(range), 全距最大值最小值。 定组段数 一般取815个为宜,多取10个,组段数太多,计算较繁, 组段数过少则误差较大。 定组距(class interval) 相邻两组段下限值之差为组距(class interval)。各组段的 组距可以相等,也可以不等。若拟定为相等组距,则组距全 距/组段数,为便于观察

5、值归组,组距常取整数。 定组段(class range) 即定各组数据的上下限,俗称“封口”。通常,某组段的最小值为下限 (lower limit),相邻较大组段的下限即本组段的上限(upper limit)。第一组段 应包括最小值,最末组段应包括最大值。 计数(fi) 划分组段后,将原始数据以适当方式划记计数(常用“正”字法)归组 。得频数分布表。 计算组中值(Class mid-value)(xi) 组中值 计算均数 将各组段的频数与组中值之积相加求和,再除以总频数即得均数。 2.2.1.2 几何均数 定义 几何均数(geometric mean,G),也叫倍数均数, 当观察值相差较大甚至

6、成倍数关系时,如用算术均数表示 其平均水平时受少数特大或特小值影响较大,则用几何均 数来表示其平均水平。 计算步骤 先对观察值取数值,计算对数值的均数后,再查反对 数,即得几何均数。 计算方法 直接计算法 频数表法直接计算法频数表法当观察值较多时,可先编频数表,再 按频数表计算几何均数。2.2.1.3 中位数 定义中位数(median,M,Md)指全部观察值按大小顺 序排列,居于中间位置的数值。 偏态分布资料,一端或两端有不确定数值分布的资料 ,分布情况不清的资料,适宜用中位数统计。 计算方法 直接计算法 频数表法 直接计算法样本含量n较少时,先将观察值按大小顺序排列,再进行计算。 频数表法

7、中位数是一个特定的百分位数,在全部观察值中有一 半比它大,一半比它小。当例数较多时,先将观察值编制 频数表,再按公式计算。 2.2.2 变异数 定义变异数是表示观察值变异水平的统计指标, 常用指标有极差、方差、标准差和变异系数等。 2.2.2.1 极差 定义亦称全距(rangc,R),即一组观察值中最大值与 最小值之差。 RXmaxXmin 特点全距反映了变异的范围,极差大,变异度大;极差 小,变异度小。 缺点用极差表示变异程度的大小简单明了,但它仅考虑了 观察值的最大值和最小值,而没有考虑其他数值,因此是 不够全面的。 2.2.2.2 方差要克服全距的缺点,必须全面考虑到每个观察值。首先考虑

8、用每一个观察值与均数之差的和即离均差总 和(x )来描述。 再考虑用离均差平方和(x )2来描述。最终考虑用离均差平方和的均数即方差S2来描述。 2.2.2.3 标准差 定义为了保持与原观察值及其均数的单位一致,将方差开平方,即得标 准差,以S表示。 特点标准差直接表示观察值分布的离散程度,间接反映样本的代表性。在观察单位数相同,均数相近条件下,标准差较大,表明观察值的 变异程度较大,即观察值围绕均数的分布较离散,因而样本的代表性较 差;反之,标准差较小,表明观察值的变异程度较小,观察值围绕均数 的分布较密集,样本的代表性好。2.2.2.4 变异系数 定义 对均数相差较大或性质不同的资料,不能

9、直接用标准 差比较变异程度的大小,要用变异系数作比较。 特点 与标准差一样,变异系数愈大,表明观察值的变异程 度愈大,变异系数愈小,表明变异程度愈小。 2.2.3 相对数 定义环境研究直接观测到的数据称为绝对数,绝 对数虽然能反映调查中所发现的某种现象的绝对 水平,但作深入分析时,仅看绝对数是不够的, 必须考虑使用相对数(relative number),即两 个有联系的指标之比。常用相对数有率、比等。 2.2.3.1 率 定义 率(rate)是某一现象发生的频度(频繁程度)或强度,通常指 在一定条件下某种现象实际发生的次数与可能发生该现象的总次数之 比。 率= 率的比例基数可用100、100

10、0、10,000、100,000等分别称为 百分率,千分率,万分率,或十万分率。 环境监测常用的率有:检出率 回收率 最高浓度出现率 残留率 超标率 2.2.3.2 构成比 定义构成比(constitution ratio)是事物内部某种 构成部分对总体之比。说明部分在总体中所占的 比重,是一种用来表示事物内部各构成情况的指 标。构成比 2.2.3.3 相对比 定义相对比(relative ratio)指两个有关联的同类指 标的比。以倍数或百分数()来表示,其计算式:相对比= 常用的相对比有倍数、指数、系数等。 倍数在大气监测中,经常用测定值与国家卫生标准值的比较来评价车 间、工厂或大气的污染

11、程度。 指数(index)环境保护研究中,指数是环境污染物的实测浓度对该污染物在环 境中的容许浓度的比值,是环境质量评价的常用手段。 I I :环境质量指数C:污染物实测 平均浓度 S:污染物容许标 准。 系数如排毒系数,环境污染物的排放浓度对该污染物的排放标准的比 值,用于表示各种污染物和污染源对环境的毒害的潜在能力。2.3 环境样本特征推断 环境样本特征主要指环境样本的分布形式和环境样本的正常值范围等,可以利用获得的统计量进行统 计处理,完成上述推断工作。2.3.1 样本特征推断的理论基础 正态分布 定义 正态分布(normal distribution)又称高斯分 布(Gaussian

12、Distribution),是以均数为中心的对 称钟型分布。 正态曲线是一条高峰位于中央,两侧完全对称 并逐渐下降但永远不与横轴相交的钟形曲线 正态曲线由和两个参数决定,为总体均数,为 总体标准差。决定正态曲线的位置,决定正态曲 线形状 。2.3.2 样本特征推断 样本分布形式的判定 确定正常值范围 确定样本所代表总体的理论频数分布2.4 参数估计 定义 探知研究对象的总体特征是环境研究的主要目标,由于总体庞大 的原因,直接计算参数是极其困难的,因此,往往用样本统计量来估 计总体参数,这个过程称为参数估计(estimation of parameter)。 本节主要讨论总体均数估计的基本问题。

13、 总体均数估计分为点估计和区间估计。 点估计(point estimation)是根据一个样本求出总体参数的具体 数值,常用根据极大似然法原理导出的公式计算极大似然估计量。 由于存在变异和抽样的随机性,用不同的样本推断总体时,可能 得到不同的参数估计值。因此更稳妥的办法是采用区间估计。 2.4.1 总体均数区间估计的理论基础t分布 2.4.1.1 抽样误差 定义对样本的统计结果与总体的“真实”之间必然存在差异,这种由于 抽样而引起的样本与总体之间的差异称为抽样误差。 标准误差样本均数的标准差称为标准误差, 。计算公式为:在实际工作中,总体标准差 常属未知,只能用样本标准差S代替 作为最佳的无偏

14、估计,于是标准误的计算公式变为:2.4.1.2 描述样本均数的分布t分布 从一个均数为,标准差为的正态总体中,随机抽取含 量为n的样本,可计算样本均数 ,样本标准误 ,则将 样本均数与总体均数的离差以样本标准误 为单位,得正 态(离)差 t ,若干样本的t值就构成统计上著名的t 分布。 实际工作中总体标准差 往往是不知道的,只能用样 本标准差S来代替,于是得 t 2.4.2 总体均数的区间估计 区间估计(interval estimation)按预先给定的概率,由一个样本均数及其标准误求出总体均数数 值范围的过程。 “预先给定的概率”也称为可信度、可信水平、可信系数,符号为1-,常取0.99或

15、 0.95。 “总体均数数值范围”也称为可信区间,符号为CI。其含义是:由一个样本均数及其标 准误求出的被估计参数值有0.99或0.95的可能在此数值范围内,或由 若干个样本均数及其标准误求出的若干个被估计参数值中,有99或 95的个数可能在此数值范围内。 2.4.3 总体率的区间估计可仿照总体均数的可信区间估计的方法来估计总体率的 所在范围,即求总体率的可信区间,我们介绍两种方法。 正态近似法 当n足够大,且p和(1-p)不接近零,有np和n(1-p)均大于5时, 总体率的可信区间为: 式中u为可信度1-时的标准正态离差,由u界值得知,如99可信 区间时,0.01,u2.58,95可信区间时,0.05,u1.96。 查表法 当n1000,pl时,可查附表3(百分率的可信限表),得到总体 率的可信区间。 2.5 显著性检验 两均数差异显著性检验 样本均数与总体均数的差异显著性检验 两样本均数的差异显著性检验 两个几何级数样本均数的差异显著性检验 配对资料的差异显著性检验 两个大样本均数的显著性检验u 检验 方差不齐的两样本均数差异的显著性检验

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号