【清华】05-环境数据分析方法-3-838507025PPT课件

上传人:文库****9 文档编号:152273373 上传时间:2020-11-22 格式:PPTX 页数:48 大小:729.76KB
返回 下载 相关 举报
【清华】05-环境数据分析方法-3-838507025PPT课件_第1页
第1页 / 共48页
【清华】05-环境数据分析方法-3-838507025PPT课件_第2页
第2页 / 共48页
【清华】05-环境数据分析方法-3-838507025PPT课件_第3页
第3页 / 共48页
【清华】05-环境数据分析方法-3-838507025PPT课件_第4页
第4页 / 共48页
【清华】05-环境数据分析方法-3-838507025PPT课件_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《【清华】05-环境数据分析方法-3-838507025PPT课件》由会员分享,可在线阅读,更多相关《【清华】05-环境数据分析方法-3-838507025PPT课件(48页珍藏版)》请在金锄头文库上搜索。

1、环境数据处理与数学模型环境数据分析方法,董 欣 环境系统分析教研所 2015年3月4日,01,02,03,04,基本概念,数据处理与展示,描述性统计,二总体的假设检验,05,06,07,08,回归分析,主成分分析,聚类分析,时间序列分析,数据挖掘/大数据介绍(邀请讲座,待定),04,二总体的假设检验,基本概念 两总体均值一致性检验 两总体方差一致性检验,大样本与小样本 判断依据 大样本:n30(社会学研究中往往要求大于50) 小样本:n30 本质区别,原假设与备择假设 原假设(Null hypothesis) 研究者想收集证据予以反对的假设,H0 备择假设/研究假设(Alternative h

2、ypothesis) 研究者想收集证据予以支持的假设,H1,一个标准零件直径为10cm,质量控制人员要定期对一台加工机床检查,确定机床生产的零件是否符合要求。如果所生产零件的平均尺寸大于或小于10cm,说明机床生产不正常,反之。,H0:=10cm(机床生产正常) H1:10cm(机床生产不正常),收集证据想证明的假设是“机床生产不正常” 否则没有必要检验!,单尾检验与双尾检验 单尾检验(One-tailed test) 备择假设具有特定的方向性,即含有或的假设检验 双尾检验( Two-tailed test ) 备择假设不具有特定的方向性,即含有的假设检验,两类错误与显著性水平 假设检验的目的

3、是要根据样本信息作出决策,但决策是建立在样本信息基础上的,而样本又是随机的,很有可能犯错,拒绝H0才会犯第I类错误,不拒绝H0才会犯第II类错误 当增大时,减小,反之 ,同时减小增大样本容量,两类错误与显著性水平 增大样本会受限制,所以只能将和控制在可接受的范围内 哪一类错误的后果更为严重,首要控制哪类错误发生的概率 犯第I类错误的概率可以控制,往往先控制第I类错误发生的概率 假设检验中犯第I类错误的概率,称为显著性水平(Level of significance),记为,两类错误与显著性水平 显著性水平使人们事先指定的犯第I类错误概率的最大允许值 =0.01, 0.05, 0.1 确定后,第

4、II类错误发生的概率没法确定 在样本观测没有充分理由拒绝原假设时,我们通常称“不拒绝H0”,而不称“接受H0”,因为“接受H0”的可靠性将由概率来控制,相对复杂,检验统计量与拒绝域 样本能够提供的信息十分丰富,往往需要对这些信息进行压缩和提炼 检验统计量(Test statistic):根据样本观测结果计算得到的,能够对原假设与备择假设作出决策的某个统计量 检验统计量是一个随机变量,随着样本的不同,它的具体数值也不同 根据检验统计量建立一个准则,依据这个准则和计算得到的检验统计量,决定是否拒绝原假设,检验统计量与拒绝域 拒绝域(Rejection region):能够拒绝原假设的检验统计量的所

5、有可能取值集合 由显著性水平所谓围成的区域 越小,拒绝域越小 如果样本计算得到的检验统计量落在了拒绝域里,就拒绝原假设 临界值(Critical value):根据给定的显著性水平确定的拒绝域的边界值,临界值,置信水平 1-,拒绝域,0,0,0,双尾检验,左侧检验,右侧检验,假设检验的步骤 陈述原假设H0和备择假设H1 从所研究的总体中抽出一个随机样本 确定一个适当的检验统计量,并利用样本数据计算出其具体数值 确定一个适当的显著性水平,并计算出临界值,制定拒绝域 将统计量的值与临界值比较,作出决策:若统计量的值落在拒绝域里,拒绝原假设(也可以用P值作出决策),两总体均值一致性检验 例如: 两个

6、班平均成绩是否有显著性差异? 两个端面TN浓度是否有显著性差异?,双尾检验,左侧检验,右侧检验,大样本两总体均值一致性检验 两个样本的均值抽样分布为正态分布,两个样本均值之差也为正态分布 计算参数 总体A,总体均值、总体方差: 总体B,总体均值、总体方差: 来自总体A的样本,样本均值、样本方差和样本容量: 来自总体B的样本,样本均值、样本方差和样本容量:,样本足够大,n30(社会学问题n50),且为独立样本 A,B两个样本中个体个数可以不一样 当总体方差未知时,可用样本方差代替,例2:某公司对男女职员的平均小时工资进行了调查,独立抽取了具有同类工作经验的男女职员的两个随机样本,并记录了两个样本

7、的均值、方差等,如下表,在显著性水平0.05的条件下,能否认为男性职员和女性职员的平均小时工资存在显著差异?,大样本,设A=男性职员的平均小时工资,B=女性职员的平均小时工资。 原假设与备择假设分别为: H0:A-B=0;H1: A-B0 计算统计量:(由于不知道总体方差,用样本方差代替),查表得到显著性水平0.05对应的临界值分别为1.96和-1.96 计算统计量落在拒绝域里,所以拒绝原假设。 该公司男女职员的平均小时工资之间存在显著差异,小样本两总体均值一致性检验 两个样本的总体均要服从正态分布 总体服从正态分布,且两个总体方差已知 计算参数 总体A,满足正态分布 总体B,满足正态分布 来

8、自总体 A 的样本,样本均值和样本容量: 来自总体 B 的样本,样本均值和样本容量: 总体方差已知,与大样本两总体均值一致性检验相同,小样本两总体均值一致性检验 总体服从正态分布,两个总体的方差未知,但相等 需要用两个样本的方差对总体方差估计 将两个样本合在一起,给出总体方差的合并估计量 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,样本均值、方差、容量: 来自总体 B 的样本,样本均值、方差、容量: 总体方差未知,样本为独立样本 A,B两个样本中个体个数可以不一样,小样本两总体均值一致性检验 总体服从正态分布,两个总体的方差未知,且不相等,但两个样本的容量相等

9、两个样本均值之差经标准化后服从t分布 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,样本均值、方差、容量: 来自总体 B 的样本,样本均值、方差、容量: 总体方差未知且不等 两个样本容量相等,样本为独立样本 A,B两个样本中个体个数一样,小样本两总体均值一致性检验 总体服从正态分布,两个总体的方差未知且不相等,且两个样本的容量也不相等 两个样本均值之差经标准化后近似服从t分布 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,样本均值、方差、容量: 来自总体 B 的样本,样本均值、方差、容量: 总体方差未知且不等,四舍五入后查表,独立样本

10、,例3:为了研究环境噪声对居民睡眠的影响,分别对生活在50dB(A)和55dB(A)噪声环境的居民分别抽查10人次,如下表。已知居民睡眠时间为正态分布,不同噪声等级下方差相等,在显著性水平0.05的条件下,能否认为两个分贝下居民睡眠时间存在显著差异?,小样本,设A=50dB下居民平均睡眠时间,B=55dB下居民平均睡眠时间。 原假设与备择假设分别为: H0:A-B=0;H1: A-B0 计算统计量:(两总体为正态分布,且方差相等),计算统计量没有落在拒绝域里,所以不拒绝原假设。 50dB(A)和55dB(A)噪声对居民睡眠时间的影响 无显著性差异,配对样本(Paired sample) 所有个

11、体先测量的值看做是来自第一个总体的样本值;所有个体后测量的值,看做是来自另一个总体的样本值,独立样本,配对样本,配对样本(Paired sample) 每对数据都惟一对应样本中的某个个体,不能随意改变某一样本中观测值的次序 目的:对配对对象给予两种不同处理效果的比较,或者处理前后的效果比较 配对的本质:除了研究者希望考察的影响因素外,其他影响因素大体一致 在某些情况下,无法做到一个样本在两种情况下的观察,此时只能采用两个样本,但必须做到其他影响因素大体一致,以便实现配对目的,配对样本两总体均值一致性检验 适用条件 两个样本的总体满足正态分布 不要求两总体方差相等 检验思路 对配对样本测量值之差

12、进行均值是否为0的检验 t检验(t分布) 大样本?,例4:某同学研发了一种测试COD的新方法,为了比较新方法与国标方法的差别,该同学对8个水样进行了COD浓度的测量,结果如下表,取显著性水平=0.05,使用该新方法与国标法测量COD浓度是否有显著性差异?,设A=国标法测得的COD浓度均值,B=新方法测得的COD浓度均值 原假设与备择假设分别为: H0:A-B=0;H1: A-B0 计算统计量:(两总体为正态分布),计算统计量没有落在拒绝域里,所以不拒绝原假设。 新旧方法无显著性差异,两总体方差一致性检验 通常对两总体方差的比值进行推断 两总体是正态分布,则方差之比的估计量的抽样分是F分布 容量

13、为nA和nB的两个样本分别独立取自两个正态总体时,统计量F服从F(nA -1, nB -1),例5:学校准备购进一批灯泡,打算在两个供货商之间选择一家,两供货商生产的灯泡平均使用寿命差别不大,价格相近,考虑的主要因素就是灯泡使用寿命的方差大小。如果方差没有明显差异,就选择距离近的一家供货商。学校对两家供货商提供的样品进行了监测,数据如下表。以=0.05的显著性水平检验两家供货商提供的灯泡使用寿命的方差是否有显著差异?,设A2=供货商1的灯泡寿命方差, B2=供货商1的灯泡寿命方差 原假设与备择假设分别为: H0: A2/ B2= 1;H1 A2/ B2 1 计算统计量:(两总体为正态分布),计

14、算统计量没有落在拒绝域里,所以不拒绝原假设。 两个供应商的灯泡寿命方差无显著性差异,小样本两总体均值一致性检验 已知:两总体是正态分布 未知:两总体方差,两总体方差是否相等 先进行方差一致性检验 如果一致小样本,总体正态,方差未知但相等 如果不一致小样本,总体正态,方差未知且不相等 先F检验,再t检验,例6:为了研究环境噪声对居民睡眠的影响,分别对生活在50dB(A)和55dB(A)噪声环境的居民分别抽查10人次,如下表。已知居民睡眠时间为正态分布,在显著性水平0.05的条件下,能否认为两个分贝下居民睡眠时间存在显著差异?,先做F检验, 统计量 临界值 后续同例3,进行t检验(小样本,总体正态

15、,方差未知但相等),方差一致,例7-1:工厂进行了改革,改革前后工厂内8个车间每天的次品产量如下表,以0.05为显著性水平,改革是否效果明显?,配对检验,改革效果明显,例7-2:如果车间数据不是来自配对样本,而是独立样本,以0.05为显著性水平,改革是否效果明显?,不能否认二总体的方差相等,不能认为改革前后有显著差异。,相同的数值,如果是来自配对样本的,就必须使用配对数据的检验方法。 因为配对数据表示,除了所研究的因素外,其余影响因素已经得到了控制,因此在样本容量一定时,比独立抽样的检验灵敏度要高。,总体是否满足正态分布? 样本是否满足正态分布?,两个总体分布是否一致? 两个样本分布是否一致?

16、,非参数检验,例8:监测到某河流上下游两个断面COD浓度如下表所示,在显著性水平为0.05的条件下,两个断面COD浓度是否分别服从正态分布?这两个断面COD浓度的分布是否一致?,作业1:某污染区采取了一项土壤修复措施,修复前后土壤含镉量见下表。分别按照以下假设,选择合适方法,在显著水平0.05的要求下进行检验。 (1)修复前后样本的总体满足正态分布,检验该修复措施是否有效; (2)修复前后样本的总体分布形式未知,检验该修复措施是否有效; (3)假设不是配对样本,而是某两个污灌区的土壤含镉量数据,检验结果如何变化?并解释这一变化。,作业2:一项试验来测定臭氧对人体健康的影响。将一组22只70天大的小白鼠放在有臭氧的环境中生活7天,记录下增加的体重。将另一组23只同样大的小白鼠放在没有臭氧的环境中生活相同的时间,也记录下增加的体重。具体数据(以克为单位)见下表。分析数据,确定臭氧的效应。,小结 临界值vs.拒绝域 两总体均值一致性检验 大样本 小样本 配对样本 两总体方差一致性检验 分布一致性检验,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号