第4章参数估计和假设检验ppt课件-医学资料

上传人:杰猫 文档编号:119359331 上传时间:2020-01-13 格式:PPT 页数:93 大小:1.26MB
返回 下载 相关 举报
第4章参数估计和假设检验ppt课件-医学资料_第1页
第1页 / 共93页
第4章参数估计和假设检验ppt课件-医学资料_第2页
第2页 / 共93页
第4章参数估计和假设检验ppt课件-医学资料_第3页
第3页 / 共93页
第4章参数估计和假设检验ppt课件-医学资料_第4页
第4页 / 共93页
第4章参数估计和假设检验ppt课件-医学资料_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《第4章参数估计和假设检验ppt课件-医学资料》由会员分享,可在线阅读,更多相关《第4章参数估计和假设检验ppt课件-医学资料(93页珍藏版)》请在金锄头文库上搜索。

1、参数估计与假设检 验 4.1参数估计 4.2假设检验 4.1 参数估计 l4.1.1参数估计的基本概念 l4.1.2总体均值和比例的区间估计 l4.1.3必要样本容量的确定 22 4.1.1 参数估计的基本概念 总体 样本样本 算术平均数 统计量 用来推断总体参数的统计量称为估计量(estimator), 其取值称为 估计值(estimate) 。 同一个参数可以有多个不同的估计量。参 数是唯一的,但估计量(统计量)是随机变量,取值是不确定 的。 参数 33 点估计 l点估计: 用估计量的数值作为总体参数的估 计值。 l一个总体参数的估计量可以有多个 。例如 ,在估计总体方差时, 和 都可以作

2、为估计量。 44 点估计量的常用评价准则:无偏 性 l无偏性:估计量的数学期望与总体待估 参数的真值相等: P P( ( ) ) B B A A 无偏无偏有偏 55 点估计量的常用评价准则: 有效 性 l 在两个无偏估计量中方差较小的估 计量较为有效。 A A B B 的抽样分布 的抽样分布 P P( ( ) ) 66 估计量的常用评价准则:一致 性 l指随着样本容量的增大,估计量越来越 接近被估计的总体参数。 A A B B 较小的样本容量 较大的样本容量 P(X ) X X 77 区间估计 l根据事先确定的置信度1 - 给出总体 参数的一个估计范围。 l置信度1 - 的含义是:在同样的方法

3、 得到的所有置信区间中,有100(1- )% 的区间包含总体参数。 l抽样分布是区间估计的理论基础。 估计值(点估计) 置信下限置信上限 置信区间 88 抽样分布 Sampling Distribution l从总体中抽取一个样本量为n的随机样本 ,我们可以计算出统计量的一个值。 l如果从总体中重复抽取样本量为n的样本 ,就可以得到统计量的多个值。 l统计量的抽样分布就是这一统计量所有可 能值的概率分布。 99 抽样分布:几个要点 l抽样分布是统计量的分布而不是总体或样本的 分布。 l在统计推断中总体的分布一般是未知的,不可 观测的(常常被假设为正态分布)。 l样本数据的统计分布是可以直接观测

4、的,最直 观的方式是直方图,可以用来对总体分布进行 检验。 l抽样分布一般利用概率统计的理论推导得出, 在应用中也是不能直接观测的。其形状和参数 可能完全不同于总体或样本数据的分布。 1010 抽样分布的一个演示:重复 抽样时样本均值的抽样分布 (1) 设一个总体含有4 个个体,分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下。 均值和方差 总体的频数分布 1 1 4 4 2 2 3 3 0 0 .1.1 .2.2 .3.3 1111 抽样分布的一个演示:重复抽 样时样本均值的抽样分布(2 ) 现从总体中抽取n2的简单随机样本,在重复 抽样条件下,共有42=16个样

5、本。所有样本的结果 如下表. 3,43,33,23,13 2,42,32,22,12 4,44,34,24,14 1,4 4 1,3 321 1,21,11 第二个观察值第一个 观察值 所有可能的n = 2 的样本(共16个) 1212 抽样分布的一个演示:重 复抽样时样本均值的抽样 分布(3) 各样本的均值如下表,并给出样本均值的抽样分布 x x 样本均值的抽样分布 1.01.0 0 0 .1.1 .2.2 .3.3 P ( x ) 1.51.53.03.04.04.03.53.52.02.02.52.5 3.53.02.52.03 3.02.52.01.52 4.03.53.02.54 2

6、.5 4 2.0 321 1.51.01 第二个观察值第一个 观察值 16个样本的均值(x) 1313 所有样本均值的均值和方差 1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n M为样本数目 1414 样本均值的抽样分布与总体分布 的比较 = 2.5 2 =1.25 总体分布 1 1 4 4 2 2 3 3 0 0 .1.1 .2.2 .3.3 抽样分布 样本均值的抽样分布 1.01.0 0 0 .1.1 .2.2 .3.3 P P ( ( x x ) ) 1.51.53.03.04.04.03.53.52.02.02.52.5 1515 样本均值的抽样

7、分布 = 50= 50 =10=10 X X 总体分布 n = 4 抽样分布 X n =16 一般的,当总体服从 N(,2 )时,来自该总体 的容量为n的样本的均值X也服从正态分布,X 的 期望为,方差为2/n。即XN(,2/n)。 1616 f(Xf(X) ) X X 小样本 中心极限定理 从均值为,方差为 2的一个任意总体中抽取容量 为n的样本,当n充分大时,样本均值的抽样分布近 似服从均值为、方差为2/n的正态分布。 大样本大样本( (n n 30) 30) 1717 标准误(Standard Error ) l简单随机抽样、重复抽样时,样本均 值抽样分布的标准差等于 ,这 个指标在统计

8、上称为标准误。 l统计软件在对变量进行描述统计时一 般会输出这一结果。 1818 有限总体校正系数 Finite Population Correction Factor l简单随机抽样、不重复抽样时,样本均值 抽样分布的方差略小于重复抽样的方差, 等于 l 这一系数称为有限总体校正系数 。 l当抽样比(n/N)描述统计-探索 统计量标准 误 均值27.191.8373 均值的 95% 置信区间下限25.530 上限28.852 5% 修整均值26.977 中值26.500 方差70.104 标准差8.3728 极小值9.5 极大值50.3 2626 总体比例的置信区间:例子 解:显然有 因此

9、可以用正态分布进行估计。 /2=1.645 结论:我们有90的把握认为悉尼青少年中每 天都抽烟的青少年比例在19.55%23.85%之间。 1986年对悉尼 995名青少年的 随机调查发现, 有216人每天都 抽烟。试估计悉 尼青少年中每天 都抽烟的青少年 比例的90%的置 信区间。 2727 SPSS的计算结果 l在SPSS中将 “是否吸烟”输 入为取值为1 和0的属性变 量,权数分 别为216和 779。计算这 一变量均值 的置信区间 即为比例的 置信区间。 统计 量标准误 均值.2171.01308 均值的 90% 置信区间 下限 .1956 上限 .2386 5% 修整均值.1857

10、中值.0000 方差.170 标准差.41247 极小值.00 极大值1.00 范围1.00 四分位距.00 2828 4.3 必要样本量的计算 样本量越大抽样误差越小。由于 调查成本方面的原因,在调查中我们 总是希望抽取满足误差要求的最小的 样本量。 2929 关于抽样误差的几个概念 l实际抽样误差 l抽样平均误差 l最大允许误差 3030 实际抽样误差 l样本估计值与总体真实值之间的绝对 离差称为实际抽样误差。 l由于在实践中总体参数的真实值是未 知的,因此实际抽样误差是不可知的 ; l由于样本估计值随样本而变化,因此 实际抽样误差是一个随机变量。 3131 抽样平均误差 l抽样平均误差:

11、样本均值的标准差,也就是前面 说的标准误。它反映样本均值(或比例)与总体 均值(比例)的平均差异程度。 l例如对简单随机抽样中的样本均值有: 或 (不重复抽 样) l我们通常说“抽样调查中可以对抽样误差进行控制 ”,就是指的抽样平均误差。由上面的公式可知影 响抽样误差的因素包括:总体内部的差异程度; 样本容量的大小;抽样的方式方法。 3232 最大允许误差 l最大允许误差(allowable error):在确 定置信区间时样本均值(或样本比例) 加减的量,一般用E来表示,等于置信 区间长度的一半。在英文文献中也称为 margin of error。 l置信区间= l最大允许误差是人为确定的,

12、是调查者 在相应的置信度下可以容忍的误差水平 。 3333 如何确定必要样本量? l必要样本量受以下几个因素的影响: l1、总体标准差。总体的变异程度越大 ,必要样本量也就越大。 l2、最大允许误差。最大允许误差越大 ,需要的样本量越小。 l3、置信度1- 。要求的置信度越高, 需要的样本量越大。 l4、抽样方式 。其它条件相同,在重复 抽样、不重复抽样;简单随机抽样与分层 抽样等不同抽样方式下要求的必要样本容 量也不同。 3434 简单随机抽样下估计总体均值时 样本容量的确定 l式中的总体方差可以通过以下方式估计: l根据历史资料确定 l通过试验性调查估计 3535 简单随机抽样下估计总体比

13、例时 样本容量的确定 l式中的总体比例可以通过以下方式估 计: l根据历史资料确定 l通过试验性调查估计 l取为0.5。 3636 不重复抽样时的必要样本量 l比重复抽样时的必要样本量要小。 l 式中n0是重复抽样时的必要样本容 量。 3737 样本量的确定(实例1) 需要多大规模的样本才能在 90% 的置 信水平上保证均值的误差在 5 之内? 前期研究表明总体标准差为 45. n Z E = 22 2 22 2 (1645) (45) (5) 219.2 220 . 向上取整 3838 样本量的确定(实例2) 一家市场调研公 司想估计某地 区有电脑的家 庭所占的比例 。该公司希望 对比例p的

14、估 计误差不超过 0.05,要求的 可靠程度为 95%,应抽多 大容量的样本 (没有可利用 的p估计值) ? 解: 已知E=0.05,=0.05, Z/2=1.96,当未知时取为 0.5。 3939 实例3 你在美林证券公司的人力资源部工作。你计 划在员工中进行调查以求出他们的平均医疗 支出。 你希望有 95% 置信度使得样本均值 的误差在$50 以内。 过去的研究表明 约为 $400。需要多大的样本容量? n Z E = = = 22 2 22 2 (196) (400) (50) 24586246 . . 4040 4.2 假设检验 4.2.1 假设检验的基本问题 4.2.2 单个总体参数

15、的检验 4.2.3 两个总体参数的检验 4.2.1 假设检验的基本问题 l基本原理 l零假设和备择假设 l检验统计量和拒绝域 l两类错误与显著性水平 4242 实际中的假设检验问题 l假设检验: 事先作出关于总体参数、 分布形式、相互关系等的命题(假设 ),然后通过样本信息来判断该命题 是否成立(检验) 。 l产品自动生产线工作是否正常? l某种新生产方法是否会降低产品成本? l治疗某疾病的新药是否比旧药疗效更高? l厂商声称产品质量符合标准,是否可信? l 4343 案例 l美国劳工局公布的数字表明,1998年11月美国 的平均失业时间为14.6周。在费城市市长的要求 下进行的一项研究调查了50名失业者,平均失 业时间为15.54周。根据调查结果能否认为费城 的平均失业时间高于全国平均水平? l澳大利亚统计局公布的2003年第一季度失业率 为6.1%。而Roy Morgan公司在调查了14656名 14岁以上的居民以后得到的失业率为7.8%。你 认为Roy Morgan的结果显著高于统计局的数字 吗? 4444 假设检验的基本原理 l利用假设检验进行推断的基本原理是: 小概率事件在一次试验中几乎不会发生。 l如果对总体的某种假设是真实的(例如学生 上课平均出勤率

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号