第四讲估计与检验

上传人:桔**** 文档编号:571973351 上传时间:2024-08-12 格式:PPT 页数:41 大小:149.50KB
返回 下载 相关 举报
第四讲估计与检验_第1页
第1页 / 共41页
第四讲估计与检验_第2页
第2页 / 共41页
第四讲估计与检验_第3页
第3页 / 共41页
第四讲估计与检验_第4页
第4页 / 共41页
第四讲估计与检验_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《第四讲估计与检验》由会员分享,可在线阅读,更多相关《第四讲估计与检验(41页珍藏版)》请在金锄头文库上搜索。

1、第四讲第四讲 估计与统计检验估计与统计检验1一、区间估计2总体均值区间估计总体均值置信水平为100(1-)%的置信区间为:注意:注意:1、估计成立的条件是:样本必须是随机、独立的;、估计成立的条件是:样本必须是随机、独立的;2、使用、使用t分布表时,要求总体必须是近似正态的,需对样本作正态分布表时,要求总体必须是近似正态的,需对样本作正态性检验;性检验;3、置信水平不是概率(置信区间是确定的而不是随机的),可以认、置信水平不是概率(置信区间是确定的而不是随机的),可以认为以置信水平(如为以置信水平(如95%)相信总体均值在执行区间内;或是说,置)相信总体均值在执行区间内;或是说,置信水平这一计

2、算方法可以使得置信区间以信水平这一计算方法可以使得置信区间以95%的概率覆盖总体均值。的概率覆盖总体均值。大样本下:方差未知:或小样本下3例1n某小组随机抽样调查了250户家庭的年收入,样本均值为9.8万,样本标准差为4.8万。小组给出一个置信区间(9.2,10.4),但未给出置信水平。1、问该区间的置信水平?(试比较两种分布的情形)2、小组给出解释:该地区家庭平均年收入为9.210.4的概率为95%,这种说法对吗?3、若同时有10个小组在进行相同的独立调查,问9个或以上小组得出的95%置信区间都覆盖总体均值的概率是多少?提示:可以将每一个区间是否覆盖总体均值作为一次Bernoulli试验。令

3、Y为覆盖总体均值的全金属区间数,显然YBin(10,0.95)4单侧置信区间总体均值100(1-)%的置信区间:下限为:上限为:5例2n1、同例1,问总体均值95%置信区间的下限?n当置信水平提高时,估计的可靠性将(提高 or 降低)?精确性将(提高 or 降低)?6比例置信区间n若XBin(n,p),由中心极限定理传统方法是以样本p代替总体p进行区间估计,最近的研究表明,Agresti Coull区间有改进,置信水平为100(1-)%的置信区间计算公式如下:若下限小于0则用0代替,上限大于1则用1代替。7例3:n某企业从所购买的元件中随机抽检了150份,有5份不合格,估计不合格品率95%置信

4、区间。(试用传统方法和Agresti Coull 方法分别计算比较)8根据指定精度确定所需样本数n为获得总体平均100(1-)%的置信区间,且要求区间宽度不超过D时,则需从这个总体中抽取随机样本数为:n总体方差未知的两阶段法:阶段1:从总体中抽取n1个先期样本(如n1 =30),计算这个样本的方差S2;阶段2:以S2替代总体未知方差计算所需样本数n,若nn1,再补抽 n n1 份样本。另:请同学们自行计算确定总体比例所需样本数。另:请同学们自行计算确定总体比例所需样本数。9例4n例1中,若要求所获得总体均值99%置信区间的偏差为(+-)0.5万元,问至少要调查多少样本?n例3中,若要求所获得总

5、体不合格品率99%置信区间的偏差为(+-)0.5%万元,问至少要抽取多少样本?10两个总体均值之差的置信区间n根据第三讲的知识,请同学们自行给出大样本情形下的计算公式。n小样本不能使用中心极限定理,可以使用t分布,计算公式:11例5n欲比较A、B两医院住院病人的住院天数。随机抽取A医院64个住院病历,计算平均住院天数为6.54天,标准差为1.2;随机抽取B医院81个住院病历,计算平均住院天数为6.24天,标准差为0.96。则两个医院住院病人平均住院天数差的95%置信区间是多少?有人认为两个医院病人的住院时间没有差异,与上述数据矛盾吗?为什么?12例6n随机抽取A、B两地空气污染指数PSI,如下

6、表所示假设两地空气污染指数都服从正态分布,试估计两地PSI平均差95%置信区间。13例7n有文献给出一项对睡眠习惯的研究结果。在一个由87个成年人组成的样本中,每天躺在床上的平均时间为7.70小时(不管处于清醒状态还是睡眠状态),标准差为1.02小时,其中处于睡眠状态的平均时间为7.06小时,标准差为1.11小时。所以躺在床上的平均清醒时间为7.70-7.06=0.64小时。有可能建立平均清醒时间95%的置信区间吗?如果行,是多少?如不行,为什么?14例8:数据对的置信区间数据对的置信区间n某轮胎制造商希望比较新、旧材料制成的轮胎的磨损情况。从每种轮胎中各选一个随机安装在10辆前驱汽车左、右前

7、轮上。4万公里后测量磨损情况如下(单位:mm) :问新、旧材料轮胎磨损差值95%的置信区间。15两个总体比例之差的置信区间n若XBin(nx,px),Y Bin(ny,py),则 px- py 置信水平为100(1-)%的置信区间的计算方法为:传统方法:传统方法:改进方法:改进方法:16例9n重复交易次数是顾客满意度的一个很好的度量。某企业随机抽取了今年的120个交易账户,有56个订购次数在2次以上。从去年抽取80个样本,有30个订购次数在2次以上。试计算这两年中订购次数在2次以上顾客的比例之差的置信水平为95%的置信区间。17二、假设检验18问题1n某校新入学学生被随机分配进入高一两个班,人

8、数都是70人,化学课分别由2个老师任教。期末考试的平均分分别是70.5和72.4分,标准差都为5.4分。其中第一个班有一个学生想找第2个班的老师补课,他的选择有道理吗?19分析n每一次考试都包含很多随机因素;n老师1可以认为自己的教学水平(以学生考试平均分来测量)为72.4分;n老师1可以认为老师2的教学水平其实和自己是一样的,这次考试的结果是因为自己班级发挥不好而对方班级发挥的好。n对于这种具有随机性的结果的证明只能寻求统计意义上的检验。20统计检验n检验1:老师1的教学水平达不到72.4。零假设(null hypothesis,也称原假设)H0: 172.4,备择假设(alternate

9、hypothesis) H1: 1 72.4。n检验2:老师1与老师2的教学水平有差异。零假设H0: 1 - 2 = 0,备择假设H1: 1 2 0。21假设检验的概念n假设:对总体参数包括总体均值、比例、方差等的一种看法。n假设检验:事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。通常依据统计上的小概率不显著原理而对0假设作反证。0假设:待检验的假设,表示为 H0备择假设:与0假设对立的假设表示为 H122假设检验思想示例图因此我们拒绝假设因此我们拒绝假设 = 50样本均值样本均值抽样分布抽样分布这个值不像我们应这个值不像我们应这个值不像我们应这个值不像我们应该得

10、到的样本均值该得到的样本均值该得到的样本均值该得到的样本均值20H H0 0如果这是总体的真如果这是总体的真实均值实均值 = 5023P- 值(P-Value)n首先我们假设0假设成立,P-值是观测到的随机样本与0假设不一致的强度的度量。计算步骤(以均值检验为例):在0假设H0为真的条件下,求样本均值 的分布, 这个分布称为 的0分布;在0假设为真的条件下,计算观察值与H0不一致(大于、小于或不等于)的概率即为P-值。n当P-值充分小(如 ),我们就放弃H0,而认为H1成立。判断阈值 称为显著水平(significant level),当P ,此时我们称在显著水平下拒绝原假设。24总体均值统计

11、检验对总体和样本的假设同前。对形如H0: 0 ,或H0: 0,或 H0: = 0 的0假设进行检验,检验统计量为:P-值就是对应分布密度曲线下某一区域的面积,分别对应的是单尾检验(右侧面积),单尾检验(左侧面积),双尾检验(双侧面积)。大样本下:方差未知:或小样本下25总体比例的统计检验n对总体和样本的假设同前。对形如H0:p p0 ,或H0:p p0 ,或H0:p = p0 的0假设进行检验,若np0和n(1-p0)都大于10,则有检验统计量为:P-值计算同上。26例10n某有线电视服务商在免费提供了一个月的某付费频道后进行了调查。他们随机抽取了400个家庭组成样本,其中25个家庭愿意付费续

12、订该频道。该公司能够得出结论认为该地区有超过5%的家庭愿意付费观看该频道吗?27两个总体均值差的检验n对总体和样本的假设同前。对形如H0: X - - Y D0 ,或H0: X - - Y D0 ,或 H0: X - - Y = D0 的0假设进行检验,检验统计量为:大样本下:方差未知:或小样本下或当两总体方差近似相等总体方差近似相等时,可以采用合并样本方差的方法:28续P-值计算同上。 29两个总体比例差的检验n设XBin(nx,px)和YBin(ny,py)相互独立且nx和ny都很大。对形如H0: pX - - pY 0,或H0: pX - - pY 0,或 H0: pX - - pY =

13、 0 的0假设进行检验,检验统计量为:P-值计算同上。30例11n为确定某燃油添加剂是否具有节油的功能,某司机记录了自己的油耗。6箱油的平均油耗为7.4升/百公里,标准差为0.63;使用添加剂后的4箱油平均油耗为7.0升/百公里,标准差为0.75。添加剂价格为200元,问是否有必要使用该添加剂?此外,该实验是否存在瑕疵?31例12n某课题组调查企业项目风险管理的方法。 45个建筑企业样本中有17家企业采用了风险转移的方法,38个IT类企业中有16家企业采用了风险转移的方法。你能认为IT企业风险转移比例高于建筑企业吗?32关于P-值nP-值不能证明0假设的真实性;(科学方法本质上是否定虚假)例:

14、某建筑工程师要为桥墩混凝土选定水泥,其抗压强度必须大于 0 ,在对某一品牌水泥进行多次试验后测度平均值和方差,然后进行假设检验。若他采用的假设检验为: H0: 0, H1: 0 ,计算得到P-值为0.168,他能否采用这一品牌水泥?nP-值显著也不一定有现实的意义。例:调查2 X 200个某一学校两个专业学生毕业一年后平均月工资分别为1587元和1590元,方差都为100,这两个专业的毕业生工资差异显著吗?这种差异有实际意义吗?33关于显著性水平a的值n在固定的a水平下所作判断可能导致两类错误:第I类错误H0为真时拒绝了H0第II类错误H0为假时接受了H0n犯第I类错误的概率不会大于a。n通常

15、我们选取a足够小,但我们也希望确定第II类错误是可控的,于是定义功效(Power)如下:n 功效 = 1 - - P(第II类错误)n功效需在采样之前确定。34多项分布与c2检验n频数分析以下资料是从某工厂搜集而来的缺勤数。在0.05 的显著水平之下,试判定一周内每天的缺勤率是否有差异。星期星期次数次数期望期望星期一星期一12089星期二星期二 4589星期三星期三 6089星期四星期四 9089星期五星期五13089合计合计44544535检验nH0: p1= p2= p5= 1/5 1/5,n当各单元格的期望次数或理论次数不小于5时,在0假设下有统计量其中:Oi为观察值,Ei为期望值36列

16、联表(contingency table)n用于检验随机的列属性(随机变量)对选定的(或随机的)行变量是否表现为一致分布(或独立、相关)。37检验nH0: 对每一列 j 有,p1J= p2J= =pIJ38例12n男性和女性的意外发生地点的分布是否有一致性。警方提供的一个150 件意外的样本如下表。在0.05 的显著水平之下,我们可否断定意外发生的地点和性别是相关的?性別性別工作工作家中家中其他其他总数总数男性男性602010 90女性女性203010 60总数总数80502015039方差相等的F检验40非参数检验(nonparametric tests)n当样本来自于非正态总体时,需应用非参数检验方法;n当随机变量为连续数值变量时,主要方法有Wilcoxon符号秩检验(Wilcoxon signed-rank test)和Wilcoxon秩和检验(Wilcoxon rank-sum test,也称为Mann-Whitney检验: Mann-Whitney test)n方法:略41

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号