《置信区间与假设检验》由会员分享,可在线阅读,更多相关《置信区间与假设检验(32页珍藏版)》请在金锄头文库上搜索。
1、1参数估计与置信区间在分析和解决实际问题时,要取得分析对象的全部数据是非常困难的,很多时候也是根本不能实现的.比较可行的方法是从总体中抽取一定数量的样本,取得样本的测量数据,现通过样本数据对总体数据进估计.区间估计方法就是在已知样本状况时,估计总体值的可能区间的方法.此类例子在实际中非常多,如要估计全国人口的平均身高,可在已取得一定量样本的情况下可以估计出全国人口的的身高范围.要估计消费者对某产品的满意程度,可采取抽样调查方式取得一部分样本,再根据此样本值估计出全部消费者和满意程度范围,一般这种估计要求有比较高的“可信程度”,如95%的可信度.2区间估计的概念设及是由样本观测值确定的两个统计量
2、,如对给定概率1-a,有P()=1-a,则随机区()叫作参数的对应于置信概率1-a的置信区间,叫作置信下限,叫作置信上限.对于已知的置信概率(置信度),根据样本观测值来确定未知参数的置信区间,称为参数的区间估计.将置信区间用图示如下(以单个平均值的置信区间为例)31-a置信区间下限值置信区间上限值在(1-a)100%的置信度下,总体的均值会落在置信区间范围内.4区间估计的种类区间估计分为:的区间估计 即已知样本的平均值,用样本均值评估总体均值的在定 置信度下的置信区间,又分为两种情况. (1)已知样本标准差等于总体标准差. (2)未知总体标准差.的区间估计.即已知样本的标准差,用样本标准差估计
3、总体标准在一定置信度下的置信区间,也分两种情况.(1)已知样本均值等于总体均值.(2)未知总体均值.53.对两个正态总体均值差的区间估计,也分两种情况. (1)已知两个总体标准差. (2)未知两个总体的标准差,但假设,其中为总体1的标准差,为总体2的标准差.4.对两个正态总体方差比的区间估计,也分两种情况. (1)已知两个总体的均值. (2)未知总体均值.6各类区间估计的计算公式,列于下表789单样本区间估计应用例区间估计方法在日常生活中应用广泛,如调查机构通过抽取一部分样本,根据计算的样本数据值来估计全部调查对象的某种观点的可能范围.通过对两种同一物料不同供应商的抽样计算来判断其总体数值的分
4、布范围,从而得出品质优劣的结论等.六西格玛管理法中许多分析方法都包含了对数据进行区间估计以判断改善前后或不同类别数据间的区别,特别说明的是本章第一节置信区间的计算公式的前提条件是数据连续数据且总体数据服从正态分布.非正态分布数据的置信区间是很难计算的,估计作以讨论.本节将讨论连续数据单样本区间估计例.10单样本正态总体均值的区间估计例:激光头定位座的高度会影响光头读碟性能,项目Ymm,加工这种定位座的机床工有5台,我们想判断机床1所加工出来的定位座的平均高度与目标值是否相同.抽取机床1加工的10个定位座并测得高度尺寸如下:11用图形表示以上数据如下(下页图):12计算抽取得当样本数据的均值和标
5、准差我们从计算的样本均值可发现 与目标值存在差异,我们想知道这种差异是因偶然因素还是特殊因素造成的.计算总体均值的置信区间根据本章第一节公式,本例为未知b,所以计算置信区间的公式为: 置信范围下限值=置信范围下限值=13 其中:=样本平均值t=t 分布表中查得的t值a=a 风险S=样本标准差n=样本容易代入数据得: 置信区间下限值=置信区间下限值=14对应的t分布表得数值.由此得:本例总体均值的置信区间为(10.869,10.885).即机床1所加工出的定位座总体均值分布范围为10.869到10.885之间.15用图示此结果如下:置信区间置信区间总体正均值95%的置信区间16分析1.从图中可以
6、看出,目标值10.88包含在置信区间内.a为5%,表明置信区间的95%是正确的,5% 是不正确的.我们可以说总体均值以此为95%的置信 度落在置信区间内.3.从上面讨论可知:置信区间将总体数据的不确定性 易化了,从而使我们对问题的理解更加深刻.17结论 我们在下结论时应先从统计角度得出结论,再得出实际问题的结论,本例中: 统计结论为:没有证据表明机床1所加工的定位座的平均高度不在目标范围之内. 实际结论:目标值正好落在置信区间内. a=0.05,取样数为10.18样本大小对置信区间的影响 如果我们在取样时得到更多或更少的样本,得到的总体均值的置信区间会如何变化呢? 假设上例中我们取样量100
7、pcs,假定样本平均值和标准值保持不变,即得出机床1加工出的定位座的平均高度不在目标值范围之内. 我们将n=10和n=100时总体均值的置信区间比较如下表:19从上表我们可以发现,随着样本容量的增加置信区间减小,这可以理解为样本容量越大,信度下,其预测区间会变小.20 a值对样本容量的影响 下面我们比较一下不同a值(即不同置信度)对置信区间的影响. 上面计算时是按即95%的置信度进行置信区间计算的,如换成99%的置信度,即时,置信区交易会发生何种变化?计算如下: 置信区间下限值置信区间下限值我们将a=0和时总体均值的置信区间比较如下表:21从上表我们可以发现,随a值的减少,置信区间a值的减少而
8、增长.22单样本正态总体方差的区间估计在实际应用中,有时会需要估计总体的分布状况,即根据样本方差来估计总体方差的置信区间,仍以上例数据为例,用这些样本来估计95%置信度下总体方差的置信区间.计算样本数据的标准差为:23根据本章第一节三之“正态总体方差的区间统计“公式,本例为未知总体均值,所以计算公式为:置信区间下限值置信区间上限值其中:24代入数据得 置信区间下限值置信区间上限值、和 df =10-1=9对应的分布表所得的数值.由此得,本例总体方差的置信区间为(0.00008,0.00005)25双样本区间估计应用例在解决问题时,常会遇到需要对多个样本进行比较的情况,如比较两个不同供应商同一种
9、来料的品德,这时会用到双样本区间估计方法,下面我们讨论连续数据双样本区间估计例.26双样本正态总体均值差的区间估计某公司生产传真机,其某种关键部品由两家供应商提供,为了确认两家供应商所供物料品德方面有无差异,某工程师决定先估计两家供应商提供物料的总体均值方面差异程度,分别从两家供应商来料中抽取10个11个,测得数据如下:供应商A:供应商B:设物料参数服从正态分布,求两种物料的均值对应于置信概率I-a=90%的置信区间,假定27计算样本数据的平均值和标准差计算两个总体均值差的置信区间根据本章第一节公式“两个正态总体均值的区间估计”,未知和,但假定,计算置信区间的公式为:置信区间下限值置信区间上限
10、值28其中: 29代入数据得置信区间下限值置信区间上限值,df=10+12-2=19对应的物料的均值差的置信区间为(-0.937,0.357),因为均值的置信区间过0,所以可以有90%的把握认为供应商A与供应商B 供应的物料均值方面无显著差异.30双样本正态总体方差比的估计在实际应用中,有时需要比较两个样本的分布状况,这时一般是通过估计其方差的置信区间来进行比较仍以上例数据为例,用这些样本比较90%置信区度下两供应商供应物料方差比的区间估计.供应商A:供应商B:计算两个样本的标准差31计算两个总体方差比的置信区间根据本章第一节公司“两个正态总体分布方差比的区间估计”,未知,计算置信区间的公式为;置信区间下限值置信区间上限值其中:32置信区间下限值置信区间上限值代入数值得对应的F分布表所得值.由此得到本例供应商A和供应商B所供应的物料的方差比的置信区间为(0.66,6.25).