SPSS讲义05总体参数的估计.ppt

上传人:夏** 文档编号:568835581 上传时间:2024-07-27 格式:PPT 页数:28 大小:149.52KB
返回 下载 相关 举报
SPSS讲义05总体参数的估计.ppt_第1页
第1页 / 共28页
SPSS讲义05总体参数的估计.ppt_第2页
第2页 / 共28页
SPSS讲义05总体参数的估计.ppt_第3页
第3页 / 共28页
SPSS讲义05总体参数的估计.ppt_第4页
第4页 / 共28页
SPSS讲义05总体参数的估计.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《SPSS讲义05总体参数的估计.ppt》由会员分享,可在线阅读,更多相关《SPSS讲义05总体参数的估计.ppt(28页珍藏版)》请在金锄头文库上搜索。

1、统计学从数据到结论第五章 总体参数的估计估计就是根据你拥有的信息来对估计就是根据你拥有的信息来对现实世界进行某种判断。现实世界进行某种判断。你可以根据一个人的衣着、言谈你可以根据一个人的衣着、言谈和举止判断其身份和举止判断其身份你可以根据一个人的脸色,猜出你可以根据一个人的脸色,猜出其心情和身体状况其心情和身体状况统计中的估计也不例外,它是完统计中的估计也不例外,它是完全根据数据做出的。全根据数据做出的。如果我们想知道桂林人认可某饮料如果我们想知道桂林人认可某饮料的比例,人们只有在桂林人中进行的比例,人们只有在桂林人中进行抽样调查以得到样本,并用样本中抽样调查以得到样本,并用样本中认可该饮料的

2、比例来估计真实的比认可该饮料的比例来估计真实的比例。例。从不同的样本得到的结论也不会完从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽全一样。虽然真实的比例在这种抽样过程中永远也不知道;但可以知样过程中永远也不知道;但可以知道估计出来的比例和真实的比例大道估计出来的比例和真实的比例大致差多少。致差多少。从数据得到关于现实世界的结论的过从数据得到关于现实世界的结论的过程就叫做程就叫做统计推断统计推断(statistical inference)。上面调查例子是估计总体参数(某种上面调查例子是估计总体参数(某种意见的比例)的一个过程。意见的比例)的一个过程。 估计估计(estimati

3、on)和假设检验和假设检验(hypothesis testing)是统计推断的是统计推断的两个重要内容之一。两个重要内容之一。5.1 用估计量估计总体参数用估计量估计总体参数人们往往先假定某数据来自一个特人们往往先假定某数据来自一个特定的总体族(比如正态分布族)。定的总体族(比如正态分布族)。而要确定是总体族的哪个成员则需而要确定是总体族的哪个成员则需要知道总体参数值(比如总体均值要知道总体参数值(比如总体均值和总体方差)。和总体方差)。人们于是可以用相应的样本统计量人们于是可以用相应的样本统计量(比如样本均值和样本方差)来估(比如样本均值和样本方差)来估计相应的总体参数计相应的总体参数5.1

4、 用估计量估计总体参数用估计量估计总体参数一一些些常常见见的的涉涉及及总总体体的的参参数数包包括括总总体体均均值值( (m m) )、总总体体标标准准差差( (s s) )或或方方差差( (s s2 2) )和和(Bernoulli(Bernoulli试试验验中中) )成成功功概概率率p p等等(总总体体中含有某种特征的个体之比例)。中含有某种特征的个体之比例)。正正态态分分布布族族中中的的成成员员被被(总总体体)均均值值和和标准差完全确定;标准差完全确定;BernoulliBernoulli分分布布族族的的成成员员被被概概率率(或或比比例)例)p p完全决定。完全决定。因因此此如如果果能能够

5、够对对这这些些参参数数进进行行估估计计,总总体分布也就估计出来了。体分布也就估计出来了。5.1 用估计量估计总体参数用估计量估计总体参数估计的根据为总体抽取的样本。估计的根据为总体抽取的样本。样样本本的的(不不含含未未知知总总体体参参数数的的)函函数数称称为为统统计计量量;而而用用于于估估计计的的统统计计量量称称为为估估计量计量(estimator)(estimator)。由由于于一一个个统统计计量量对对于于不不同同的的样样本本取取值值不不同同,所所以以,估估计计量量也也是是随随机机变变量量,并并有有其分布。其分布。如如果果样样本本已已经经得得到到,把把数数据据带带入入之之后后,估估计计量量就

6、就有有了了一一个个数数值值,称称为为该该估估计计量量的的一一个个实实现现(realization)(realization)或或取取值值,也也称为一个称为一个估计值估计值(estimate)(estimate)。5.1 用估计量估计总体参数用估计量估计总体参数点估计点估计(point estimation),即用估计,即用估计量的实现值来近似相应的总体参数。量的实现值来近似相应的总体参数。区间估计区间估计(interval estimation);它;它是包括估计量在内(有时是以估计量为是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可中心)的一个区间;该区间被认为很可能包含

7、总体参数。能包含总体参数。点估计给出一个数字,用起来很方便;点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有而区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。余地;不像点估计那么绝对。5.2 点估计点估计用什么样的估计量来估计参数呢?用什么样的估计量来估计参数呢?实实际际上上没没有有硬硬性性限限制制。任任何何统统计计量量,只只要人们觉得合适就可以当成估计量。要人们觉得合适就可以当成估计量。当当然然,统统计计学学家家想想出出了了许许多多标标准准来来衡衡量量一一个个估估计计量量的的好好坏坏。每每个个标标准准一一般般都都仅仅反映估计量的某个方面。反映估计量的某个方面。这

8、这样样就就出出现现了了各各种种名名目目的的估估计计量量(如如无无偏估计量等)。偏估计量等)。另另一一些些估估计计量量则则是是由由它它们们的的计计算算方方式式来来命名的(如最大似然估计和矩估计等)。命名的(如最大似然估计和矩估计等)。5.2 点估计点估计最最常常用用的的估估计计量量就就是是我我们们熟熟悉悉的的样样本本均均值值、样样本本标标准准差差( (s s) )和和(Bernoulli(Bernoulli试验的试验的) )成功比例成功比例( (x x/ /n n) );人人们们用用它它们们来来分分别别估估计计总总体体均均值值( (m m) )、总总体体标标准准差差( (s s) )和和成成功功

9、概概率率( (或或总总体体中中的比例的比例) )p p。5.2 点估计点估计那么,什么是好估计量的标准呢?那么,什么是好估计量的标准呢?一一 种种 统统 计计 量量 称称 为为 无无 偏偏 估估 计计 量量(unbiased estimator)(unbiased estimator)。所所谓谓的的无无偏偏性性( (unbiasednessunbiasedness) )就就是是:虽虽然然每每个个样样本本产产生生的的估估计计量量的的取取值值不不一一定定等等于于参参数数,但但当当抽抽取取大大量量样样本本时时,那那些些样样本本产产生生的的估估计计量量的的均均值会接近真正要估计的参数。值会接近真正要估

10、计的参数。5.2 点估计点估计由由于于一一般般仅仅仅仅抽抽取取一一个个样样本本,并并且且用用该该样样本本的的这这个个估估计计量量的的实实现现来来估估计计对对应应的的参参数数,人人们们并并不不知知道道这这个个估估计计值值和和要要估估计的参数差多少。计的参数差多少。因因此此,无无偏偏性性仅仅仅仅是是非非常常多多次次重重复复抽抽样样时的一个时的一个渐近渐近概念。概念。随随机机样样本本产产生生的的样样本本均均值值、样样本本标标准准差差和和BernoulliBernoulli试试验验的的成成功功比比例例分分别别都都是是相相应应的的总总体体均均值值、总总体体标标准准差差和和总总体体比比例的无偏估计。例的无

11、偏估计。5.2 点估计点估计在在无无偏偏估估计计量量的的类类中中,人人们们还还希希望望寻寻找找方方差差最最小小的的估估计计量量,称称为为最最小小方方差差无无偏偏估计量。估计量。此此因因为为方方差差小小说说明明反反复复抽抽样样产产生生的的许许多多估计量差别不大,因此更加精确。估计量差别不大,因此更加精确。评评价价一一个个统统计计量量好好坏坏的的标标准准很很多多;而而且且许许多多都都涉涉及及一一些些大大样样本本的的极极限限性性质质。我我们不想在这里涉及太多此方面的细节。们不想在这里涉及太多此方面的细节。5.3 区间估计区间估计当当描描述述一一个个人人的的体体重重时时,你你一一般般可能不会说这个人是

12、可能不会说这个人是76.3576.35公斤公斤你你会会说说这这个个人人是是七七八八十十公公斤斤,或或者者是是在在7070公公斤斤到到8080公公斤斤之之间间。这这个范围就是区间估计的例子。个范围就是区间估计的例子。5.3 区间估计区间估计在在抽抽样样调调查查例例子子中中也也常常用用点点估估计计加加区间估计的说法。区间估计的说法。比比如如,为为了了估估计计某某电电视视节节目目在在观观众众中中的的支支持持率率(即即总总体体比比例例p p),某某调调查查结结果果会会显显示示,该该节节目目的的“收收视视率率为为90%90%,误误差差是是3%3%,置置信信度度为为95%95%”云云云云。这这种种说说法法

13、意意味味着着下下面面三点三点5.3 区间估计区间估计1.1.样样本本中中的的支支持持率率为为90%90%,即即用用样样本本比例作为对总体比例的点估计比例作为对总体比例的点估计2.2.估估计计范范围围为为90%90%3%(3%(3%3%的的误误差差) ),即区间,即区间(93%(93%,87%)87%)。3.3.如如用用类类似似的的方方式式,重重复复抽抽取取大大量量(样样本本量量相相同同的的)样样本本时时,产产生生的的大大量量类类似似区区间间中中有有些些会会覆覆盖盖真真正正的的p p,而而有有些些不不会会;但但其其中中大大约约有有95%95%会会覆覆盖真正的总体比例。盖真正的总体比例。5.3 区

14、间估计区间估计这这样样得得到到的的区区间间被被称称为为总总体体比比例例p的的置置信信度度(confidence level)为为95%的的置置信信区区间间(confidence interval)。这这里里的的置置信信度度又又称称置置信信水水平平或或置置信信系系数。数。显显然然置置信信度度的的概概念念又又是是大大量量重重复复抽抽样时的一个渐近概念。样时的一个渐近概念。5.3 区间估计区间估计因因此此说说“我我们们目目前前得得到到的的区区间间(比比如如上上面面的的90%3%90%3%)以以概概率率0.950.95覆覆盖真正的比例盖真正的比例p”p”是个错误的说法是个错误的说法。这这里里的的区区间

15、间(93%(93%,87%)87%)是是固固定定的的,而而总总体体比比例例p p也也是是固固定定的的值值。因因此此只只有有两两种种可可能能:或或者者该该区区间间包包含含总总体比例,或者不包含;体比例,或者不包含;在固定数值之间没有任何概率可言。在固定数值之间没有任何概率可言。5.3 区间估计区间估计例例5.1(noodle.txt)5.1(noodle.txt)某某厂厂家家生生产产的的挂挂面面包包装装上上写写明明“净净含含量量450450克克”。在在用用天天平平称称量量了了商商场场中中的的4848包包挂挂面面之之后后,得得到到样样本本量量为为4848的的关关于于挂挂面面重量(单位:克)的一个样

16、本:重量(单位:克)的一个样本:用计算机可以很容易地得到挂面重量的用计算机可以很容易地得到挂面重量的样本均值、总体均值的置信区间等等。样本均值、总体均值的置信区间等等。下面是下面是SPSS的输出:的输出:该输出给出了许多第三章引进的描述统计该输出给出了许多第三章引进的描述统计量。和估计有关的是作为总体均点估计的量。和估计有关的是作为总体均点估计的样本均值,它等于样本均值,它等于449.01;而总体均值的;而总体均值的95%置信区间为(置信区间为(447.41,450.61)5.3 区间估计区间估计我我们们还还可可以以构构造造两两个个总总体体的的均均值值(或或比比例)之差的置信区间。例)之差的置

17、信区间。如如想想知知道道两两个个地地区区学学生生成成绩绩的的差差异异,可可以以建建造造两两个个地地区区成成绩绩均均值值之之差差m m1 1- - m m2 2的的置信区间。置信区间。如如想想比比较较一一个个候候选选人人在在不不同同阶阶段段支支持持率率的的差差异异,那那就就可可构构造造比比例例之之差差p p1 1- -p p2 2的的置信区间。置信区间。5.3 区间估计区间估计例例5.25.2有有两两个个地地区区大大学学生生的的高高度度数数据据(height2.txt)(height2.txt)(a)(a)我我们们想想要要分分别别得得到到这这两两个个总总体体均均值值和和标标准准差差的的点点估估计

18、计(即即样样本本均均值值和和样样本本标标准准差差)和和各各总总体体均均值值的的95%95%置信区间。置信区间。(b)(b)求求两两个个均均值值差差m m1 1- -m m2 2的的点点估估计计和和95%95%置置信信区区间间。利利用用软软件件很很容容易易得得到下面结果:到下面结果:5.3 区间估计区间估计两个总体均值估计量的样本均值分别为170.56和165.60,样本标准差分别为6.97857和7.55659;还得到均值的置 信 区 间 分 别 是 (168.5767, 172.5433),(163.4524, 167.7476)。 可以得到两个样本均值的差(4.9600),另外还给出了两总

19、体均值差的95%置信区间(2.073,7.847)。 5.4 关于置信区间的注意点关于置信区间的注意点前前面面提提到到,不不要要认认为为由由某某一一样样本本数数据据得得到到总总体体参参数数的的某某一一个个95%95%置置信信区区间间,就就以以为为该该区区间间以以0.950.95的的概概率率覆覆盖总体参数。盖总体参数。置置信信度度95%95%仅仅仅仅描描述述用用来来构构造造该该区区间间上上下下界界的的统统计计量量( (是是随随机机的的) )覆覆盖盖总总体参数的概率;体参数的概率;也也就就是是说说,无无穷穷次次重重复复抽抽样样所所得得到到的所有区间中有的所有区间中有95%95%包含参数。包含参数。

20、5.4 关于置信区间的注意点关于置信区间的注意点但但是是把把一一个个样样本本数数据据带带入入统统计计量量的的公公式式所所得得到到的的一一个个区区间间,只只是是这些区间中的一个。这些区间中的一个。这这个个非非随随机机的的区区间间是是否否包包含含那那个个非非随随机机的的总总体体参参数数,谁谁也也不不可可能能知知道道。非非随随机机的的数数目目之之间间没没有有概概率可言。率可言。5.4 关于置信区间的注意点关于置信区间的注意点置置信信区区间间的的论论述述是是由由区区间间和和置置信信度度两两部部分组成。分组成。有有些些新新闻闻媒媒体体报报道道一一些些调调查查结结果果只只给给出出百百分分比比和和误误差差(

21、即即置置信信区区间间),并并不不说说明明置置信信度度,也也不不给给出出被被调调查查的的人人数数,这这是不负责的表现。是不负责的表现。因因为为降降低低置置信信度度可可以以使使置置信信区区间间变变窄窄(显显得得“精精确确”),有有误误导导读读者者之之嫌嫌。在在公公布布调调查查结结果果时时给给出出被被调调查查人人数数是是负负责责任任的的表表现现。这这样样则则可可以以由由此此推推算算出出置置信度(由后面给出的公式),反之亦然。信度(由后面给出的公式),反之亦然。5.4 关于置信区间的注意点关于置信区间的注意点一一个个描描述述性性例例子子:有有1000010000个个人人回回答答的的调调查查显显示示,同

22、同意意某某观观点点人人的的比比例例为为70%70%(有有70007000人人同同意意),可可算算出出总总体体中中同同意意该该观观点点的的比比例的例的95%95%置信区间为(置信区间为(0.6910.691,0.7090.709););另另一一个个调调查查声声称称有有70%70%的的比比例例反反对对该该种种观观点点,还还说说总总体体中中反反对对该该观观点点的的置置信信区区间间也也是是(0.6910.691,0.7090.709)。)。到到底底相相信信谁谁呢呢?实实际际上上,第第二二个个调调查查隐隐瞒瞒了了置置信信度度。如如果果第第二二个个调调查查仅仅仅仅调调查查了了5050个个人人,有有3535个个人人反反对对该该观观点点。则则其其置置信信区区间的置信度仅有间的置信度仅有11%11%。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号