管理定量分析第六章

上传人:wt****50 文档编号:55723538 上传时间:2018-10-05 格式:PPT 页数:83 大小:519KB
返回 下载 相关 举报
管理定量分析第六章_第1页
第1页 / 共83页
管理定量分析第六章_第2页
第2页 / 共83页
管理定量分析第六章_第3页
第3页 / 共83页
管理定量分析第六章_第4页
第4页 / 共83页
管理定量分析第六章_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《管理定量分析第六章》由会员分享,可在线阅读,更多相关《管理定量分析第六章(83页珍藏版)》请在金锄头文库上搜索。

1、管理定量分析,主讲人:李国梁,管理定量分析,主讲:李国梁,第六章 统计估计与假设检定,第一节 统计估计与置信区间 第二节 假设检定,次数分布表、统计图、平均数或标准差的主要用途是呈现一组资料的形态或趋势。当学者想要从手边的样本资料来归纳母体的特性时,描述统计的使用有所不足。因为描述统计仅能呈现手边资料的特性,为了能适当地、合理地归纳出母体的特性,我们需要用推论统计。简单地说,推论就是以样本资料来归纳母体特性的过程,与推论相关的统计方法即为推论统计。 推论统计方法不仅可以用来估计母体的特性,也就是一般所说的统计估计,推论认识水平也可以用来推测这些估计的正确程度,也就是一般所说的假设检定。,第一节

2、 统计估计与置信区间 统计估计就是以样本统计量来推算母体参数的统计方法,也就是根据抽样的结果来科学地猜测母体的特性大约是什么。例如,为了能了解全体北京市民对朝鲜核试验的看法,我们可以用北京市在籍成年市民为母体,然后使用随机抽样法选取1500位北京市民为样本,对其政治态度进行民意调查。然后以1500位北京市民的样本资料来归纳全体北京市民对朝鲜核试验的看法。这个以样本特性来归纳母体特性的过程就是统计估计。,一、点估计与区间估计 统计估计可分为:“点估计”与“区间估计”两种。点估计就是以样本所计算出的一个数值来估计母体参数。以估计母体平均数为例,点估计是以样本平均数来失算母体平均数。因为它只是一个数

3、值,所以称为点估计。点估计的准确性是很低的,因为以少数的样本观察值所获得的结果,要吻合以全体观察值计算出的平均数确实不容易。由于我们并不知道真正的母体参数,无法推估出点估计值与真正的母体值之间的差距,因为无法推算点估计值的误差。基于这个缺点,一般以区间估计来推算母体的特性。,所谓的区间估计就是用样本资料计算出一个区间范围,以推算母体参数的统计估计。例如,我们说北京市民的平均身高在1.60米到1.75米之间,这样的估计要比说平均身高是1.60米的猜中机会大得多。因为我们是以区间范围推算母体参数,所以称为区间估计。区间估计的优点是我们可以推算估计的准确程度,而这一区间的大小就是估计的误差值。一般而

4、言,这个估计区间不能太大,因为太大就失去了估计的准确性。,如果我们说北京市民的平均身高在0到2米之间,这样的估计虽然接近100%正确,但是对我们来讲几乎毫无用处,因为这样的估计可以说是没有估计。相反,估计区间也不能太小,因为太小则可能失去估计的可信度。例如,我们说北京市民的平均身高在1.699到1.6999米之间就很难让人信服这一结论的正确性。因此,为了平衡准确度与可信度上的要求,我们通常是将可信程度固定在某一水平上,称为“置信系数”,然后计算出相关的区间,称为“置信区间”。,二、置信系数与置信区间 虽然区间估计可以用于推算所有的母体参数,我们以母体平均数的估计来说明置信系数与置信区间。前面曾

5、经说明,根据中央极限定理,在做多次抽样所得的平均数,如果排列起来就会形成正态分布。这个正态分布的平均数为 (等于母体平均数 ),标准误为 。假定我们知道母体的标准差( ),依照图示,约有68%的 会落在1个标准误的区间 ( , )。约有95%的 会落在2个标准误的区间( , )。约有99%的 会落在3个标准误的区间( ,,)。因为我们是要估计母体平均数,所以上面的说法可以转换成: 有68%的 包含 ,有95%的 包含 ,有99%的 包含 。换句话,就是区间估计的逻辑是以概率抽样方法自母体抽取一个样本,计算其平均数,依照所要的置信系数,将加减K个而得到上下区间。这个区间就是置信区间。因此,置信区

6、间与置信系数的关系可以用下面的公式来表示: (6.1),上式中的左侧为置信区间,其中 为区间的下界,而 为区间的上界。 为区间的宽度, 通常称为“最大抽样误差”,也称为“边际误差”,是以置信区间来估计母体参数时的最大可能抽样误差。上式中的右侧的1-a为置信系数,a又称为显著水平,是概率分布两尾端的面积和。因为1-a表示置信区间的可靠性,a所以表示置信区间估计的不可靠性。置信系数与显著水平之和为1,两者都表示相关的概率。,例如,如果置信系数设为0.95的话,其显著水平即为0.05,我们所构建的则是95%置信区间。因此,在估计母体平均数时,置信系数为1-a的置信区间通常以下列公式表示:,置信系数为

7、的置信区间: 或者 (6.2) 上式中 为区间的下界,而 为 区间的上界。,图6-1 正态曲线面积分布图,我们应该如何解释置信区间呢?图6-2显示样本平均数 的抽样分布,我们以95%置信区间来估计母体平均数。如果样本平均数区间是 ,那么以样本平均数所建立的区间就应包含母体平均数。反之,如果样本平均数不在区间 ,那么以样本平均数所建立的区间就不会包含母体平 均数。不过实际上我们很少会知道真正的母体平均数,因此通常也无法知道样本平均数,是否一定是在 与 之间。但是对任何一次抽样,其样本平均数会有95%的概率在 与 之间。因此置信区间的意义是:如果连续抽样100次,每次都建立一个置信区间,所谓的95

8、%置信区间是指这100个置信区间中,会有95%个样本正确地包含着母体平均数,约有5个不包含。或者说,每抽样20次,就会有一次估计区间不包含母体平均数。假定我们已知母体平均数值,如图6-3所示20次抽样后所建立的置信区间。,在这20次抽样中,有19个置信区间包含了母体平均数,但是有一个置信区间没有包含母体平均数。同理,所谓99%的置信区间是指建立的100个置信区间中,有99个置信区间包含了母体平均数,但是有一个置信区间没有包含母体平均数。但是实际,我们绝大多数情况下,不会做100次抽样,而是只做一次,所以说这一次抽样所建构的置信区间会包含母体平均数的概率是95%或是99%。,图6-2 以样本值建

9、立的95%置信区间,表6-1 置信系数、a值、z分数与相对应的概率,图6-3 重复抽样置信区间与母体平均数的关系示意图,三、母体平均数的区间估计 在介绍了区间估计的概念后,下面再来讨论如何以置信区间估计母体平均数,然后再说明以置信区间估计母体百分比。 1.已知:大样本 中央极限定理告诉我们,如果样本足够大,样本平均数会形成正态分布。假定我们也知道母体标准差,置信区间则可以由公式6.2表示。我们以估计北京男性市民的平均身高为例进行说明如何以公式6.2来建构置信区间。,假定在随机抽样1000位北京男性市民后,样本平均身高为172CM,已知为30CM,北京男性市民平均身高为95%置信区间为什么? 根

10、据公式6.2,我们必须找到式中za/2的值。从标准正态分布表中可知,与z=1.96相对应的概率是0.475,这个概率只代表平均数到z=1.96的面积,我们还应考虑平均数到z=-1.96的面积,所以0.475乘以2,就等于0.95或者95%,所以相对于置信区间系数0.95的z分数1.96。公式6.2改写为 95%置信区间: = =(172-1.86,172+1.86) =(170.14,173.86),这就表示在95%的置信系数下,北京男性市民的平均身高是在170.14CM到173.86CM之间,其最大抽样误差是1.86CM。 如果我们要求置信系数为99%的置信区间,同理可知z=2.575,代入

11、公式6.2中可得: 99%置信区间 = =(172-2.44,172+2.44) =(169.56,174.44),这就表示在99%的置信系数下,北京男性市民的平均身高是在169.56CM到174.44CM之间,其最大抽样误差是2.44CM。 注意99%置信区间比95%置信区间要宽,这是因为置信系数越高,统计值就越要有包容性,区间就需要越宽。不过太宽的置信区间有时使之失去了实际的效用,如上面例子,如果上面的置信区间设为100CM到200CM,这个平均身高的估计区间就没什么意义了,因为它实在是太宽了,精确度太低了,这就是高置信系数所须付出的代价。,2. 为未知:大样本 在大部分的情况下,我们不知

12、道母体标准差。如果样本数够大,我们可以样本标准差s来作为母体标准差的估计值,也就是公式6.2中的以s来取代,置信系数为1-a的置信区间为: 或者 (6.3) 我们以下面的例子来说明。,假定在随机抽样100位某市人大代表后,样本平均年龄为45岁,样本标准差为9,该市人大代表平均年龄的95%与99%置信区间分别是多少? 我们虽然不知道母体标准差,但是因为样本数够大,我们以样本标准差s来取代母体标准差,由前例可知,建构95%置信区间时,za/2=1.96,依公式6.3,市人大代表平均年龄的95%置信区间为: 95%置信区间: = =(45-1.76,45+1.76) =(43.24,46.76),这

13、就表示在95%置信系数下,该市人大代表平均年龄是在43.24岁与46.76岁之间,其最大抽样误差为1.76。 市人大代表平均年龄的99%置信区间为: 99%置信区间: = =(45-2.32,45+2.32) =(42.68,47.32) 这就表示在99%置信系数下,该市人大代表平均年龄是在42.68岁与47.32岁之间,其最大抽样误差为2.32。,3. 为未知:小样本 另一种常见的情况是我们不知道母体标准差,而且样本数量相对较少(通常少于30个)。如果母体为正态分布,我们可以用t分布来建构母体平均数的置信区间,也就是将公式6.3中的za/2以n-1自由度的t a/2来取代,因此,置信系数为1

14、-a的置信区间为: 或者 (6.4) 我们再以上例为例进行分别计算。假定在随机抽样16位人大代表之后,样本平均年龄为55岁,样本标准差为20。某市人大代表平均年龄的95%和99%置信区间分别为多少?,查t分布需要知道自由度和a值, 市人大代表平均年龄的95%置信区间为:这里自由度为16-1,a值为1-0.95,查t分布表知t a/2为2.131。 95%置信区间: = =(55-10.66,55+10.66) =(44.34,65.66) 这就表示在95%置信系数下,该市人大代表平均年龄是在44.34岁与65.66岁之间,其最大抽样误差为10.66。,如果我们想在置信系数在99%的情况下进行计

15、算,市人大代表平均年龄的95%置信区间为:这里自由度为16-1,a值为1-0.99,查t分布表知 t a/2为2.947。 95%置信区间: = =(55-14.74,55+14.74) =(40.26,69.74) 这就表示在99%置信系数下,该市人大代表平均年龄是在40.26岁与69.74岁之间,其最大抽样误差为14.74。,在实际上,我们通常不知道母体标准差,所以不论大小样本,一般我们都用t分数来计算置信区间。很多统计软件甚至只提供t分数计算的置信区间来估计母体平均数,而不提供以z分数计算的置信区间。当然,在使用小样本时,要检视母体分布是否为正态分布。在估计母体平均数时,以t分数计算的置

16、信区间会比以z分数计算的置信区间保守得多(精确度低)。,四、母体百分比的区间估计 除了估计母体平均数以外,在社会科学中,我们经常遇到一些问题需要估计母体中的百分比。例如:依照抽样方法来估计某城市上网人口比例,或某地区抽烟人口比例,或人民支持某法案的比例。对于这类问题,我们可以对母体百分比做区间估计。其估计的逻辑与母体平均数的估计相同。 我们在第三章已经知道,样本百分比的计算是p=f/n100,其中f是某事件发生的次数,n是样本数。根据中央极限定理,当样本楼足够大时,在做多次抽样后所得的样本百分比p,就会形成正态分布。这样“样本百分比抽样分布”的标准差为 ,这些样本百分比的期望值(也就是这些样本百分比的平均数)E(p)等于母体百分比。也就是,,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号