统计学-07抽样推断.ppt

上传人:hs****ma 文档编号:571709398 上传时间:2024-08-12 格式:PPT 页数:149 大小:1.27MB
返回 下载 相关 举报
统计学-07抽样推断.ppt_第1页
第1页 / 共149页
统计学-07抽样推断.ppt_第2页
第2页 / 共149页
统计学-07抽样推断.ppt_第3页
第3页 / 共149页
统计学-07抽样推断.ppt_第4页
第4页 / 共149页
统计学-07抽样推断.ppt_第5页
第5页 / 共149页
点击查看更多>>
资源描述

《统计学-07抽样推断.ppt》由会员分享,可在线阅读,更多相关《统计学-07抽样推断.ppt(149页珍藏版)》请在金锄头文库上搜索。

1、统计学统计学从数据到结论从数据到结论王二威王二威第七章第七章 抽样推断抽样推断引言引言n森林管理森林管理n森林的现有储量森林的现有储量n森林以往的生长情况森林以往的生长情况n森林未来的生长情况森林未来的生长情况几个基本概念几个基本概念n总体和样本;样本容量总体和样本;样本容量n参数和统计量参数和统计量n新技术下日光灯的寿命新技术下日光灯的寿命n候选人的支持率候选人的支持率7.1 抽样推断概述抽样推断概述n抽样推断的涵义抽样推断的涵义以抽样调查为基础以抽样调查为基础用样本资料估计和判断总体资料用样本资料估计和判断总体资料n抽样推断的特征抽样推断的特征q按随机的原则抽取样本按随机的原则抽取样本q以

2、样本指标推算总体指标以样本指标推算总体指标q抽样误差可以事先计算和控制抽样误差可以事先计算和控制7.1 抽样推断概述抽样推断概述nA公司人事部经理被分配一项任务,为公司公司人事部经理被分配一项任务,为公司2500名管理人员制定一份简报,其中包括管理名管理人员制定一份简报,其中包括管理人员的平均薪金和公司中已完成管理培训程序人员的平均薪金和公司中已完成管理培训程序的管理人员所占比率。的管理人员所占比率。n如果没有如果没有2500管理人员具体的信息,假定选取管理人员具体的信息,假定选取30名管理人员组成一个样本进行研究分析名管理人员组成一个样本进行研究分析7.1 抽样推断概述:抽样的组织方式抽样推

3、断概述:抽样的组织方式n1. 简单随机抽样简单随机抽样q直接抽选法直接抽选法q标签法标签法q随机数码表法随机数码表法n2. 类型抽样(分层抽样)类型抽样(分层抽样)q等比例分类抽样等比例分类抽样q不等比例分类抽样不等比例分类抽样n3. 等距抽样的等距抽样的 : 亦叫机械抽样亦叫机械抽样 先将总体各单位按某一标志排队先将总体各单位按某一标志排队 然后按等距离抽取样本单位然后按等距离抽取样本单位7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式n等距抽样的操作程序:等距抽样的操作程序:第一步:编制抽样框第一步:编制抽样框将全及总体按有关标志(将全及总体按有关标志(x)从低到高顺)从低

4、到高顺序排队序排队 列出辅助标志(列出辅助标志(f) 将辅助标志依次累计将辅助标志依次累计某村民小组有某村民小组有30户农户,若调查该村民小组所有户农户,若调查该村民小组所有农户农户2005年人均收入水平,可编制成如下抽样框:年人均收入水平,可编制成如下抽样框:序号序号12345678910111213141520042004年人均收入年人均收入(十元)(十元)x x185187190198201218256260274290295325340366368人口数(人)人口数(人)f f425343345421543人口数累计人口数累计4611141821242833373940454952抽中

5、户抽中户序号序号16171819202122232425262728293020042004年人均收入年人均收入(十元)(十元)x x370371388402410446453470477490499502503516520人口数(人)人口数(人)f f423344243454335人口数累计人口数累计56586164687274788185909497100105抽中户抽中户抽样框第二步:第二步:计算抽样计算抽样距离(距离(K)如果抽取如果抽取6户进行调查,则:户进行调查,则: 抽样距离抽样距离K=105617.5第三步:抽取调查单位第三步:抽取调查单位n半距起点、等距抽样半距起点、等距抽样

6、u 半距起点、等距抽样半距起点、等距抽样以第一个抽样距离的以第一个抽样距离的一半处一半处作为第一个调查单作为第一个调查单位位以后毎以后毎隔一个抽样距离隔一个抽样距离抽取一个调查单位抽取一个调查单位直到最后一个调查单位抽出为止直到最后一个调查单位抽出为止以抽取以抽取6户为例,抽取的户数依次为:户为例,抽取的户数依次为:n第第1户户 n1=17.528.75 为第为第3号户号户n第第2户户 n2=8.75+17.5=26.25 为第为第8号户号户n第第3户户 n3=26.25+17.5=43.75 为第为第13号户号户n第第4户户 n4=43.75+17.5=61.25 为第为第19号户号户n第第

7、5户户 n5=61.25+17.5=78.75 为第为第24号户号户n第第6户户 n6=78.75+17.5=96.25 为第为第28号户号户抽中户的位置可用图形表示如下:抽中户的位置可用图形表示如下:n1n2n3n4n5n65k6k4k3k2k1k第四步第四步:对抽中单位进行代表性检查:对抽中单位进行代表性检查计算样本平均数与全及平均数之计算样本平均数与全及平均数之比值比值其比值以人均收入水平上下不超过其比值以人均收入水平上下不超过3%为有代表为有代表性。性。现以半距起点、等距抽取的现以半距起点、等距抽取的6户为例,检查其代表性户为例,检查其代表性n30户的人均收入户的人均收入xf /f =

8、37990105 361.8(十元)(十元)n6户的人均收入户的人均收入x/n (190+260+340+402+477+503)6 362(十元)(十元)n二者比值为:二者比值为:362/361.8100.06n可以看出,抽中的可以看出,抽中的6户有足够的代表性,可以作为样本进户有足够的代表性,可以作为样本进行调查。行调查。 4、整群抽样、整群抽样将总体单位划分成若干群(将总体单位划分成若干群(R)以群为单位,从中随机抽取一部分群(以群为单位,从中随机抽取一部分群(r)对中选群的所有单位进行全面调查。对中选群的所有单位进行全面调查。 例如:对某镇农户进行家计调查,以自然村庄划分群,例如:对某

9、镇农户进行家计调查,以自然村庄划分群,抽取若干个自然村庄,对中选村庄的所有农户都进行抽取若干个自然村庄,对中选村庄的所有农户都进行调查。调查。D村庄村庄L村庄M村庄N村庄村庄J村庄A村庄B村庄C村庄E村庄F村庄G村庄H村庄K村庄7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式n5. 多阶段抽样多阶段抽样n类型抽样和整群抽样的结合类型抽样和整群抽样的结合7.1 抽样推断概述:抽样方法抽样推断概述:抽样方法n重复抽样重复抽样q亦称回置抽样亦称回置抽样q每抽出一个单位在登记后仍放回去每抽出一个单位在登记后仍放回去q同一个单位有多次被重复抽中的可能同一个单位有多次被重复抽中的可能n不重

10、复抽样不重复抽样q亦称不回置抽样亦称不回置抽样q已经被抽出的单位不再放回已经被抽出的单位不再放回q每个单位只有被抽中一次的可能每个单位只有被抽中一次的可能7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识基础知识n概率概率n随机变量随机变量n(概率)分布(概率)分布n正态分布正态分布7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率概率n概概率率是是0 0和和1 1之之间间的的一一个个数数目目,表表示示某某个个事事件发生的可能性或经常程度。件发生的可能性或经常程度。n你买彩票中大奖的机会很小你买彩票中大奖的机会很小( (接近接近0)0)n但有

11、人中大奖的概率几乎为但有人中大奖的概率几乎为1 1n你被流星击中的概率很小你被流星击中的概率很小( (接近接近0)0)n但每分钟有流星击中地球的概率为但每分钟有流星击中地球的概率为1 1n你今天被汽车撞上的概率几乎是你今天被汽车撞上的概率几乎是0 0n但在北京每天发生车祸的概率是但在北京每天发生车祸的概率是1 1。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率概率n发生概率很小的事件称为小概率事件(small probability event);n小概率事件不那么可能发生,但它往往比很可能发生的事件更值得研究。n在某种意义上,新闻媒体的主要注意力大都集中

12、在小概率事件上。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:随机变量随机变量试验试验随机变量随机变量可能的取值可能的取值抽查100个产品取到次品的个数0,1,2,100一家餐馆营业一天顾客数0,1,2,抽查一批电子原件使用寿命X0新建一座住宅楼半年完成工程的百分比0X 1007.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率分布概率分布n随随机机变变量量取取一一切切可可能能值值或或范范围围的的概概率率或或概概率率的的规规律律称称为为概概率率分分布布(probability (probability distributiond

13、istribution,简称分布,简称分布) )。n概概率率分分布布可可以以用用各各种种图图或或表表来来表表示示;一一些可以用公式来表示。些可以用公式来表示。n概概率率分分布布是是关关于于总总体体的的概概念念。有有了了概概率率分布就等于知道了总体。分布就等于知道了总体。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n取取连连续续值值的的变变量量,如如高高度度、长长度度、重重量量、时时间间、距距离离等等等等;它它们们被被称称为为连连续续变变量量(continuous variable)。n换换言言之之,一一个个随随机机变变量量如如果果能能够够在在

14、一一区区间间(无无论论这这个个区区间间多多么么小小)内内取取任任何何值值,则则该该变变量量称称为为在在此此区区间间内内是是连连续续的的,其其分分布布称称为为连连续续型型概概率分布。率分布。n它它们们的的概概率率分分布布很很难难准准确确地地用用离离散散变变量量概概率率的的条形图表示。条形图表示。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n想想象象连连续续变变量量观观测测值值的的直直方方图图;如如果果其其纵纵坐坐标标为为相相对对频频数数,那那么么所所有有这这些些矩矩形形条条的的高高度度和和为为1;完完全全可可以以重重新新设设置置量量纲纲,使使得

15、得这这些些矩矩形形条条的的面面积积和和为为1。n不不断断增增加加观观测测值值及及直直方方图图的的矩矩形形条条的的数数目目,直直方方图图就就会会越越来来越越像像一一条条光光滑滑曲曲线线,其其下下面面的的面面积积和和为为1。n该该曲曲线线即即所所谓谓概概率率密密度度函函数数(probability density function,pdf),简简称称密密度度函函数数或或密密度度。下下图图为为这这样形成的密度曲线。样形成的密度曲线。逐渐增加矩形条数目的直方图和一个逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。形状类似的密度曲线。 7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础

16、知识:基础知识:正态分布正态分布n正正态态分分布布的的密密度度曲曲线线是是一一个个对对称称的的钟钟型型曲曲线线(最最高高点点在在均均值值处处)。正正态态分分布布也也是是一一族族分分布布,各各种种正正态态分分布布根根据据它它们们的的均均值值和和标准差不同而有区别。标准差不同而有区别。n一一个个正正态态分分布布用用N( , )表表示示;其其中中 为为均均值值,而而 为为标标准准差差。也也常常用用N( , 2 2)来来表表示示,这这里里 2 2为方差(标准差的平方)。为方差(标准差的平方)。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n标标准准差差

17、为为1的的正正态态分分布布N(0, 1)称称为为标标准准正正态态分布分布(standard normal distribution)。n标准正态分布的密度函数用标准正态分布的密度函数用f(x)表示。表示。n任任何何具具有有正正态态分分布布N(m,s)的的随随机机变变量量X都都可可以以用用简简单单的的变变换换(减减去去其其均均值值m,再再除除以以标标准准差差s):Z=(X-m)/s,而而成成为为标标准准正正态态随随机机变量。这种变换和标准得分的意义类似。变量。这种变换和标准得分的意义类似。两条正态分布的密度曲线。左边是两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是分布,右边是N(0

18、, 1)分布分布 正态分布n当当然然,和和所所有有连连续续变变量量一一样样,正正态态变变量量落落在在某某个个区区间间的的概率就等于在这个区间上,密度曲线下面的面积。概率就等于在这个区间上,密度曲线下面的面积。n比比如如,标标准准正正态态分分布布变变量量落落在在区区间间(0.51,1.57)中中的的概概率率,就就是是在在标标准准正正态态密密度度曲曲线线下下面面在在0.51和和1.57之之间间的的面积。面积。n很很容容易易得得到到这这个个面面积积等等于于0.24682;也也就就是是说说,标标准准正正态态变变量量在在区区间间(0.51,1.57)中中的的概概率率等等于于0.24682。如如果果密密度

19、函数为度函数为f f(x),那么这个面积为积分,那么这个面积为积分标准正态变量在区间标准正态变量在区间(0.51, 1.57)中中的概率的概率7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:参数与统计量参数与统计量n总体参数总体参数q总总体体均均值值,总总体体成成数数,总总体体标标准准差差,总总体体方差方差n统计量统计量q抽抽样样平平均均数数,抽抽样样成成数数,样样本本标标准准差差,样样本方差本方差7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据P200 三种分布三种分布n总体分布总体分布n样本分布样本分布n抽样分布抽样分布1.所有样本指标(如均值、

20、成数、方差等)所所有样本指标(如均值、成数、方差等)所形成的分布称为抽样分布形成的分布称为抽样分布2.是一种理论概率分布是一种理论概率分布3.随机变量是随机变量是 样本统计量q样本均值样本均值, 样本成数等样本成数等4.结果来自结果来自容量相同的所有可能容量相同的所有可能样本样本抽样分布抽样分布(概念要点)(概念要点)样本均值的抽样分布样本均值的抽样分布(一个例子)(一个例子)【例例】设设一一个个总总体体,含含有有4个个元元素素(个个体体),即即总总体体单单位位数数N=4。4 个个个个体体分分别别为为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下总体的均值、方差及分布如

21、下均值和方差均值和方差均值和方差均值和方差总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1. .2 2.3.3样本均值的抽样分布样本均值的抽样分布 (一个例子)(一个例子) 现现从从总总体体中中抽抽取取n2的的简简单单随随机机样样本本,在在重重复复抽抽样样条条件件下下,共共有有42=16个个样样本本。所所有有样样本本的的结结果果如下表如下表n3,4n3,3n3,2n3,1n3n2,4n2,3n2,2n2,1n2n4,4n4,3n4,2n4,1n4n1,4n4n1,3n3n2n1n1,2n1,1n1n第二个观察值n第一个n观察值n所有可能的所有可能的n = 2 的样本(共的

22、样本(共16个)个)样本均值的抽样分布样本均值的抽样分布 (一个例子)(一个例子) 计算出各样本的均值,如下表。并给出样本均值的抽样分布n3.5n3.0n2.5n2.0n3n3.0n2.5n2.0n1.5n2n4.0n3.5n3.0n2.5n4n2.5n4n2.0n3n2n1n1.5n1.0n1n第二个观察值n第一个n观察值n16个样本的均值(x)样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 0.1.1.2.2.3.3P P ( ( x x ) )1.51.53.03.04.04.03.53.52.02.02.52.5x x所有样本均值的均值和方差所有

23、样本均值的均值和方差式中:式中:M为样本数目为样本数目比较及结论:比较及结论:1. 样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/n样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较抽样分布抽样分布抽样分布抽样分布 = 2.5 2 =1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3P P ( ( x x ) )1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x7.2 抽样分

24、布及抽样推断理论依据抽样分布及抽样推断理论依据大数定律大数定律n大数定律是阐述大量随机变量的平均结果具有大数定律是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称稳定性的一系列定律的总称n独立同分布独立同分布n贝奴利大数定律贝奴利大数定律n意义:随着抽样单位数的增加,样本平均数有意义:随着抽样单位数的增加,样本平均数有接近于总体平均数的趋势接近于总体平均数的趋势样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理 = 50= 50= 50 =10=10=10X X X总体分布总体分布总体分布总体分布总体分布总体分布n n = 4 = 4抽样分布抽样分布抽样分布抽样分布抽样分布

25、抽样分布Xn n =16 =16当当总总体体服服从从正正态态分分布布N (,2 )时时,来来自自该该总总体体的的所所有有容容量量为为n的的样样本本的的均均值值 X也也服服从从正正态态分分布布, X 的的数学期望为数学期望为,方差为方差为2/n。即即 XN(,2/n)正态分布均匀分布总体分布样 本 均 值分布(n=2)样 本 均 值分布(n=10)样 本 均 值分布(n=30)指数分布中心极限定理中心极限定理当当样本容量足够样本容量足够大时大时( (n n 30) 30) ,样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布中中心心极极限限定定理理:设设从从均均值值为为 ,方方

26、差差为为 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时,样样本本均均值值的的抽样分布近似服从均值为抽样分布近似服从均值为、方差为方差为2/n的正态分布的正态分布一个任意分一个任意分布的总体布的总体X Xn1. 抽样调查的主要目的在于(抽样调查的主要目的在于( )。)。A.计算和控制误差计算和控制误差 B. 了解总体单位情况了解总体单位情况. 用样本来推断总体用样本来推断总体 D. 对调查单位作深入的研究对调查单位作深入的研究n2. 抽样调查所必须遵循的基本原则是(抽样调查所必须遵循的基本原则是( )。)。A.随意原则随意原则 B. 可比性原则可比

27、性原则 . 准确性原则准确性原则 D. 随机原则随机原则n3. 在下列情况下,计算不重复抽样的抽样平均误差可以采用在下列情况下,计算不重复抽样的抽样平均误差可以采用重复抽样公式(重复抽样公式( )。)。A. 总体单位数很多总体单位数很多 B. 抽样单位数很少抽样单位数很少. 抽样单位数对总体单位数的比重很小;抽样单位数对总体单位数的比重很小;D. 抽样单位数对总体单位数的比重较大。抽样单位数对总体单位数的比重较大。n4. 一般所说的大样本是指样本容量(一般所说的大样本是指样本容量( )。)。A.小于小于10 B. 不大于不大于10 . 小于小于30 D. 不小于不小于30n5.将总体单位按一事

28、实上标志排队,并按固定距离抽选样本点的方法是(将总体单位按一事实上标志排队,并按固定距离抽选样本点的方法是( )。)。A. 类型抽样类型抽样 B. 等距抽样等距抽样 . 整群抽样整群抽样 D. 简单随机抽样简单随机抽样n6.按地理区域划片所进行的区域抽样,其抽样方法属于(按地理区域划片所进行的区域抽样,其抽样方法属于( )。)。A. 纯随机抽样纯随机抽样 B. 等距抽样等距抽样 . 类型抽样类型抽样 D. 整群抽样整群抽样 7.4 参数估计参数估计n7.4.1 抽样误差概念抽样误差概念n7.4.2 影响抽样误差大小的影响因素影响抽样误差大小的影响因素n7.4.3 抽样平均误差的计算抽样平均误差

29、的计算n7.4.4 抽样极限误差抽样极限误差7.4.1 抽样误差的概念n抽样误差是样本指标和总体指标之间抽样误差是样本指标和总体指标之间数量上的差别。以数学符号表示:数量上的差别。以数学符号表示:理解抽样误差可以从两方面着手:n抽样误差是指由于抽样的随机性而产抽样误差是指由于抽样的随机性而产生的那一部分生的那一部分代表性误差代表性误差,不包括不包括登记登记性误差性误差。也不包括可能发生的也不包括可能发生的偏差偏差。误误差差登记性误差登记性误差代表性误差代表性误差在调查过程中由于主客观原因引起的登记、汇在调查过程中由于主客观原因引起的登记、汇总或计算等方面的差错而造成的误差总或计算等方面的差错而

30、造成的误差由于样本结构由于样本结构和总体结构不和总体结构不同,样本总体同,样本总体不能完全代表不能完全代表总体而产成的总体而产成的样本指标与总样本指标与总体指标的误差体指标的误差偏差偏差随机误差随机误差破坏了抽样的随机原则而破坏了抽样的随机原则而产生的误差产生的误差实际误差实际误差抽样平均误差抽样平均误差是样本指标与总体指标的差是样本指标与总体指标的差别别所有可能出现的样本指标的标准差所有可能出现的样本指标的标准差遵守随机遵守随机原则但可原则但可能抽到各能抽到各种不同的种不同的样本而产样本而产生的误差生的误差样本统样本统计量计量总体未总体未知参数知参数样本统样本统计量计量样本统样本统计量计量样

31、本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统计量样本统计量的某可能值的某可能值抽样分布抽样分布样本统计量所有可能值的样本统计量所有可能值的概率分布概率分布主要样本主要样本统计量统计量平均数比率(成数)方差平均数比率(成数)方差抽样平均误差抽样平均误差是反映抽样误差一般水平的指是反映抽样误差一般水平的指标,标,其实质是指抽样平均数的标准差其实质是指抽样平均数的标准差,它反,它反映了是指样本指标与总体指标的平均离差程映了是指样本指标与总体指标的平均离差程度,也

32、就是样本指标与总体指标的标准差,度,也就是样本指标与总体指标的标准差,通常用通常用 来表示。来表示。 抽样平均误差n可以作为衡量样本指标对于全及指标代表性程可以作为衡量样本指标对于全及指标代表性程度的一个尺度。度的一个尺度。n是计算样本指标与全及指标之间变异范围的一是计算样本指标与全及指标之间变异范围的一个根据。个根据。n在组织抽样调查中,也是确定抽样单位数多少在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。的计算依据之一。 抽样平均误差7.1.2 影响抽样平均误差的因素影响抽样平均误差的因素1.1.总体各单位标志值的差异程度;总体各单位标志值的差异程度;2.2.样本的单位数;样本的单

33、位数;3.3.抽样的方法;抽样的方法;4.4.抽样调查的组织形式。抽样调查的组织形式。 差异越大,抽样误差异越大,抽样误差越大差越大单位数越多,单位数越多,抽样误差越小抽样误差越小重复抽样的抽重复抽样的抽样误差比不重样误差比不重复抽样的大复抽样的大1.重复抽样的条件下重复抽样的条件下 式中,式中,n n为样本容量;为样本容量; 为总体为总体标准差。一标准差。一般般情况下是未知,可用样本标准差替代情况下是未知,可用样本标准差替代 。 式中,式中,n为样本容量;为样本容量; 为总体成数标准差,一般情为总体成数标准差,一般情况下是未知,可用样本成数标准差替代况下是未知,可用样本成数标准差替代 。.2

34、.不重复抽样的条件下不重复抽样的条件下 式中,式中,N为总体单位数;为总体单位数;n为样本容量;为样本容量;X2 为总体方差。一般为总体方差。一般情况下是未知,可用样本方差替代情况下是未知,可用样本方差替代x 2。 式中,式中, N为总体单位数;为总体单位数; n为样本容量;为样本容量;P2 为总体成数的方为总体成数的方差。一般情况下是未知,可用样本成数方差替代差。一般情况下是未知,可用样本成数方差替代p2 。抽样平均数的平均误差例题:某某工厂有工厂有15001500个工人,用简单随机重复抽样的方法个工人,用简单随机重复抽样的方法抽出抽出5050个工人作为样本,调查其工资水平资料如下个工人作为

35、样本,调查其工资水平资料如下月月平均工资平均工资524524 53453454054055055056056058580 0600600660660工人数工人数4 46 69 910108 86 64 43 3计算样本平均数和抽样平均误差。计算样本平均数和抽样平均误差。解:先列表 xfxf5244209612965184534632046764056540948604003600550105500100100056084480005806348040024006004240016006400660319801000030000502800052640计算平均数即平均工资:抽样成数的平均误差例题

36、:某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。解:已知解:已知p=60% p=60% 、n=100n=100、N=500N=500练习:要估计某高校练习:要估计某高校10000名在校生的近视率,现随机从中名在校生的近视率,现随机从中抽取抽取400名,检查有近视眼的学生名,检查有近视眼的学生320名,试计算样本近视率名,试计算样本近视率的抽样平均误差。的抽样平均误差。解:根据已知条件:解:根据已知条件:1 1)在重复抽样条件下,)在重复抽样条件下,样本近视率的抽样平均误差:样本近视率的抽样平均误差:2

37、2)在不重复抽样条件下,)在不重复抽样条件下,样本近视率的抽样平均误差:样本近视率的抽样平均误差:计算结果表明,用样本的近视率来估计总体的近视率其计算结果表明,用样本的近视率来估计总体的近视率其抽样平均误差为抽样平均误差为2左右(即用样本的近视率来估计总体左右(即用样本的近视率来估计总体的近视率其误差的绝对值平均说来在的近视率其误差的绝对值平均说来在2左右)。左右)。7.1.4 抽样极限误差n抽样极限误差是指用绝对值形式表示的样本指标与抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差可允许的最大范围。即:总体指标偏差可允许的最大范围。即: 或或 maxmax上面两式可改写成以下两个不等

38、式,即:为总体平均数的估计区间(置信区间)为总体成数的估计区间(置信区间)例:要估计某乡粮食亩产量和总产量,从该例:要估计某乡粮食亩产量和总产量,从该乡乡2万亩粮食作物中抽取万亩粮食作物中抽取400亩,求得其平均亩,求得其平均亩产量为亩产量为400公斤。如果确定抽样极限误差公斤。如果确定抽样极限误差为为5公斤,试估计该乡粮食亩产量和总产量所公斤,试估计该乡粮食亩产量和总产量所在的置信区间。在的置信区间。即该乡粮食亩产量的区间落在即该乡粮食亩产量的区间落在4005公斤的范围内,即在公斤的范围内,即在395405公斤之间。公斤之间。粮食总产量在粮食总产量在20000(4005)公斤,即在公斤,即在

39、790810万公斤之间万公斤之间例:要估计某高校例:要估计某高校10000名在校生的近视名在校生的近视率,现随机从中抽取率,现随机从中抽取400名,计算的近视率名,计算的近视率为为80,如果确定允许误差范围为,如果确定允许误差范围为4,试,试估计该高校在校生近视率所在的置信区间。估计该高校在校生近视率所在的置信区间。n该校学生近视率的区间落在该校学生近视率的区间落在804的范围内,的范围内,即在即在7684之间。之间。抽样误差的概率度n基于概率估计要求,抽样极限误差基于概率估计要求,抽样极限误差x x或或p p 通常需要以抽样平均误差通常需要以抽样平均误差xx或或pp为标为标准单位来衡量。准单

40、位来衡量。n把抽样极限误差把抽样极限误差x x或或p p分别除以分别除以xx或或pp得相对数得相对数t t,表示误差范围为抽样平均表示误差范围为抽样平均误差的误差的t t倍。倍。t t是测量抽样估计可靠程度的是测量抽样估计可靠程度的一个参数,一个参数,称为抽样误差的概率度。称为抽样误差的概率度。即,抽样极限误差是抽样平均误差的多少倍。我们把倍数t称为抽样误差的概率度参数估计一一、总体参数的点估计、总体参数的点估计二、总体参数的区间估计二、总体参数的区间估计总体参数的点估计(一)参数点估计的基本特点(一)参数点估计的基本特点(二)抽样估计的优良标准(二)抽样估计的优良标准(一)参数点估计的基本特

41、点(一)参数点估计的基本特点 基本特点: 根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。 例如,样本平均值代表总体平均数;以抽样调查所获得的人口结构代表总体的人口结构等。(二)抽样估计的优良标准(二)抽样估计的优良标准 无偏性 作为总体参数估计量的样本统计量,要求其期作为总体参数估计量的样本统计量,要求其期望值(平均数)等于被估计的总体参数。这样的估望值(平均数)等于被估计的总体参数。这样的估计量称为无偏估计量。计量称为无偏估计量。 有效性 以抽样指标估计总体指标要求作为优良估计量以抽样指标估计总体指标要求作为优良估计量的方差应比其它

42、估计量的方差小。的方差应比其它估计量的方差小。 一致性 作为优良估计量的样本容量充分大时,抽样指作为优良估计量的样本容量充分大时,抽样指标也应充分地靠近总体指标。标也应充分地靠近总体指标。 即方差越小的估计量就越有效一般情况下均可满足总体参数的区间估计总体参数的区间估计(一)区间估计的基本特点及要素(一)区间估计的基本特点及要素(二)总体平均数(二)总体平均数(成数成数)的区间估计的区间估计(一)区间估计的基本特点及要素(一)区间估计的基本特点及要素 区间估计的基本特点 根据给定的概率保证度,利用实际抽样资料,根据给定的概率保证度,利用实际抽样资料,指出总体参数可能存在的区间范围。这个区间称指

43、出总体参数可能存在的区间范围。这个区间称为置信区间。为置信区间。 区间估计必须具备的三个要素 (1)估计值)估计值 (2)抽样误差范围)抽样误差范围 (3)概率保证程度)概率保证程度 抽样估计的置信度n抽样估计的置信度就是表明样本指标与抽样估计的置信度就是表明样本指标与总体指标的误差不超过一定范围的概率保总体指标的误差不超过一定范围的概率保证程度,它一般用证程度,它一般用F F( (t t) )表示。又称抽样估表示。又称抽样估计的概率保证程度。计的概率保证程度。1、总体平均数抽样估计的置信度、总体平均数抽样估计的置信度2、总体成数抽样估计的置信度、总体成数抽样估计的置信度(二)总体平均数(二)

44、总体平均数( (成数成数) )的区间估计的区间估计表表达达式式其中,其中, 为极限误差为极限误差成成成成数数数数其中,其中, 为极限误差为极限误差(二)总体平均数(二)总体平均数(成数成数)的区间估计的区间估计1.计算抽样平均数和标准差:或抽样成数平均数和成数标准差:简简单单随随机机抽抽样样下下的的一一般般步步骤骤2 .计算平均误差:5 .结果结果3 .计算计算极限误差:4 .计算计算区间的上下限:如:可以在如:可以在如:可以在如:可以在m%m%的概率保的概率保的概率保的概率保证程度下,估计证程度下,估计证程度下,估计证程度下,估计*在在在在*之间。之间。之间。之间。如果给定的是概率度,如果给

45、定的是概率度,如果给定的是概率度,如果给定的是概率度,则可查则可查则可查则可查正态分布概正态分布概正态分布概正态分布概率表率表率表率表获得。获得。获得。获得。这是上面所计这是上面所计这是上面所计这是上面所计算的上下限算的上下限算的上下限算的上下限练习:某制造厂的产品重量服从正态分布,练习:某制造厂的产品重量服从正态分布,其总体标准差其总体标准差15千克,平均重量未知。千克,平均重量未知。现随机抽取一个现随机抽取一个n=250的样本,计算结果是的样本,计算结果是 65千克。以千克。以95的置信度估计总体平的置信度估计总体平均重量的置信区间。均重量的置信区间。n解:本题已知条件为:样本容量解:本题

46、已知条件为:样本容量n=250,XN(65,15);置信水平为置信水平为95;查正态概率双;查正态概率双侧临界值表有:侧临界值表有:t=1.96x= tx=1.960.9487=1.86则,651.8665+1.86即95%的估计区间为:63.1466.86计算结果说明,我们有95的把握程度认为总体平均数介于63.14千克到66.86千克之间。练习练习2:对某批成品按重复抽样方法抽选:对某批成品按重复抽样方法抽选200件检查,其中废品件检查,其中废品8件,以件,以95的把握程的把握程度估计该批成品的废品率范围。度估计该批成品的废品率范围。 从某厂生产的5000只灯泡中,随机重复抽取100只,对

47、其使用寿命进行调查,调查结果如表 使用寿命使用寿命(小(小时)组中中值x产品品数量数量fx f3000以下以下3000 40004000 50005000以上以上25003500450055002305018500010500022500099000-1480-8401601160677120021168000128000024220800合合 计10043400053440000又该厂质量规定使用寿命在又该厂质量规定使用寿命在3000小时以下为小时以下为不合格品。不合格品。(1)按重复抽样方法,以)按重复抽样方法,以95.45%的概率保证程的概率保证程度估计该批灯泡的平均使用寿命;度估计该批

48、灯泡的平均使用寿命;(2)按重复抽样方法,以)按重复抽样方法,以68.27%的置信度估计的置信度估计该批灯泡的合格率。该批灯泡的合格率。必要抽样数目的确定确定适当样本容量的意义确定适当样本容量的意义1. 1.在一定的误差允许下,样本容在一定的误差允许下,样本容在一定的误差允许下,样本容在一定的误差允许下,样本容量太大,则会增大工作量,造成量太大,则会增大工作量,造成量太大,则会增大工作量,造成量太大,则会增大工作量,造成人力、财力和时间的浪费。人力、财力和时间的浪费。人力、财力和时间的浪费。人力、财力和时间的浪费。2. 2.如查改变了对误差的要求,则如查改变了对误差的要求,则如查改变了对误差的

49、要求,则如查改变了对误差的要求,则可以通过增减样本容量来控制抽可以通过增减样本容量来控制抽可以通过增减样本容量来控制抽可以通过增减样本容量来控制抽样误差的大小。样误差的大小。样误差的大小。样误差的大小。样本容量的确定样本容量的确定由于由于由于由于判断判断n1. 抽样误差的产生是由于破坏了随机原则所造成的。抽样误差的产生是由于破坏了随机原则所造成的。( )n2. 在其他条件不变的情况下,抽样平均误差要减少为在其他条件不变的情况下,抽样平均误差要减少为原来的原来的1/3,则样本容量必须增大到,则样本容量必须增大到9倍。(倍。( )n3. 样本指标是一个客观存在的常数。(样本指标是一个客观存在的常数

50、。( )n4. 抽样误差产生的原因是抽样调查时违反了随机原则。抽样误差产生的原因是抽样调查时违反了随机原则。( )n5. 抽样平均误差就是总体指标的标准差。(抽样平均误差就是总体指标的标准差。( )n6. 同样条件下,重复抽样误差一定大于不重复抽样误同样条件下,重复抽样误差一定大于不重复抽样误差。(差。( ) 7.5 假设检验假设检验n7.5.1 假设检验与参数估计假设检验与参数估计n7.5.2 假设检验的流程假设检验的流程n7.5.3 单个总体平均数的假设检验单个总体平均数的假设检验n7.5.4 两个总体均值的假设检验两个总体均值的假设检验n7.5.5 总体成数的假设检验总体成数的假设检验n

51、“骂人”背后的哲学n我从来没有骂过人n你骂过人n否定一个事物是比较容易的7.5 假设检验假设检验7.5.1 假设检验与参数估计假设检验与参数估计n由统计资料得知,由统计资料得知,1989年某地新生儿的平均体年某地新生儿的平均体重重3190g,现从,现从1990年的新生儿中随机抽取年的新生儿中随机抽取100个,测得其平均体重个,测得其平均体重3210g,问,问1990年的年的新生儿和新生儿和1989年相比,体重有无显著差异?年相比,体重有无显著差异?7.5.1 假设检验与参数估计假设检验与参数估计n参数估计参数估计是用样本统计量估计总体参数的方法,是用样本统计量估计总体参数的方法,总体参数在估计

52、之前是未知的。总体参数在估计之前是未知的。n假设检验假设检验则是先对的值提出一个假设,然后利则是先对的值提出一个假设,然后利用样本信息去检验这个假设是否成立。用样本信息去检验这个假设是否成立。统计方法统计方法统计方法统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验7.5.1 假设检验与参数估计假设检验与参数估计n1989 =3190gn1990样本样本=3210gn差异差异20gn原因?原因?n抽样的随机性?抽样的随机性?7.5.2 假设检验的流程假设检验的流程n1. 建立假设建立假设n1990年的新生儿平均体重为年的新生儿平均体重为n原假设:原假设:1990年的新生儿平均体重

53、为年的新生儿平均体重为3190gn备择假设:备择假设:1990年的新生儿平均体重不等于年的新生儿平均体重不等于3190g7.5.2 假设检验的流程假设检验的流程n2. 确定统计量确定统计量n影响因素很多:影响因素很多:n单一样本的比较,多个样本的比较单一样本的比较,多个样本的比较n大样本?小样本?大样本?小样本?n总体方差是否已知?总体方差是否已知?7.5.2 假设检验的流程假设检验的流程n本题目,样本容量本题目,样本容量100是大样本,总体方差已知为是大样本,总体方差已知为7.5.2 假设检验的流程假设检验的流程n4. 选择显著性水平(确定小概率)选择显著性水平(确定小概率)n事先给定的形成

54、拒绝域的小概率事先给定的形成拒绝域的小概率q通常取通常取 0.010.01, 0.050.05或或 0.100.10;这表明,当这表明,当作出接受原假设的决定时,其正确的概率为作出接受原假设的决定时,其正确的概率为99%,95%或或90%。n拒绝域拒绝域:原假设:原假设 H0 成立条件下成立条件下,统计量落入的统计量落入的小概率区域。小概率区域。n接受域接受域:统计量能够取值的非拒绝域。:统计量能够取值的非拒绝域。0拒绝域拒绝域拒绝域拒绝域非拒绝域非拒绝域(1)双侧检验双侧检验7.5.2 假设检验的流程假设检验的流程n5. 确定决策规则确定决策规则n找出统计量分布的临界值找出统计量分布的临界值

55、n计算拒绝域计算拒绝域n6. 计算统计量的实际值并作出决策计算统计量的实际值并作出决策nZ=2.5假设检验的内容假设检验假设检验总体均值的总体均值的假设检验假设检验总体比例的总体比例的假设检验假设检验总体方差的总体方差的假设检验假设检验 未知未知 已知已知 大样本大样本 小样本小样本两个总体均值差两个总体均值差的的假设检验假设检验前情回顾前情回顾n假设检验的步骤假设检验的步骤n1、建立原假设和备择假设、建立原假设和备择假设n2、确定适当统计量、确定适当统计量n3、选择显著性水平、选择显著性水平n4、确定决策规则(找出拒绝域)、确定决策规则(找出拒绝域)n5、计算统计量实际值并进行决策、计算统计

56、量实际值并进行决策7.5.4 单个总体平均数的假设检验单个总体平均数的假设检验n1.正态总体,方差已知正态总体,方差已知7.5.4 单个总体平均数的假设检验单个总体平均数的假设检验n1.正态总体,方差已知正态总体,方差已知n双侧检验双侧检验nP219 例例7-11n单侧检验单侧检验nP220 例例7-127.5.4 单个总体平均数的假设检验单个总体平均数的假设检验n2.正态总体,方差未知,大样本正态总体,方差未知,大样本n双侧检验双侧检验nP221 例例7-13n2.正态总体,方差未知,小样本正态总体,方差未知,小样本nP222 例例7-147.5.5 两个总体平均数的假设检验两个总体平均数的

57、假设检验n1.两正态总体,两方差已知,大样本两正态总体,两方差已知,大样本nP223 例例7-157.5.5 两个总体平均数的假设检验两个总体平均数的假设检验n2.两正态总体,两方差未知,大样本两正态总体,两方差未知,大样本7.5.5 两个总体平均数的假设检验两个总体平均数的假设检验n3.两正态总体,两方差未知,小样本两正态总体,两方差未知,小样本nT统计量,统计量,t分布分布n自由度取修正值自由度取修正值nP224 例例7-167.6 方差分析方差分析n7.6.1 基本概念基本概念n7.6.2 基本思想基本思想n7.6.3 基本假设基本假设n7.6.4 单因素方差分析单因素方差分析构造检验的

58、统计量构造检验的统计量(前例计算结果前例计算结果 )表8-2 四种颜色饮料的销售量及均值超市超市( j )水平水平A ( i )无色无色(A1)粉色粉色(A2)橘黄色橘黄色(A3)绿色绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计合计136.6147.8132.2157.3573.9水平均值水平均值观察值个数观察值个数 x1 =27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值总均值x =28.6957.6.2

59、 方差分析的基本思想和原理方差分析的基本思想和原理(几个基本概念)(几个基本概念)1.因素或因子因素或因子所要检验的对象称为因子所要检验的对象称为因子要要分分析析饮饮料料的的颜颜色色对对销销售售量量是是否否有有影影响响,颜色是是要要检检验的因素或因子验的因素或因子2.水平水平因素的具体表现称为水平因素的具体表现称为水平A1、A2、A3、 A4四种颜色就是因素的水平四种颜色就是因素的水平3.观察值观察值在每个因素水平下得到的样本值在每个因素水平下得到的样本值每种颜色饮料的销售量就是观察值每种颜色饮料的销售量就是观察值方差分析的基本思想和原理方差分析的基本思想和原理(几个基本概念)(几个基本概念)

60、1.试验试验这这里里只只涉涉及及一一个个因因素素,因因此此称称为为单单因因素素四四水水平平的的试试验验2.总体总体因素的每一个水平可以看作是一个总体因素的每一个水平可以看作是一个总体比比如如A1、A2、A3、 A4四四种种颜颜色色可可以以看看作作是是四四个个总总体体3.样本数据样本数据上上面面的的数数据据可可以以看看作作是是从从这这四四个个总总体体中中抽抽取取的的样样本本数据数据方差分析的基本思想和原理方差分析的基本思想和原理(两类误差)(两类误差)1.随机误差随机误差在在因因素素的的同同一一水水平平(同同一一个个总总体体)下下,样样本本的的各观察值之间的差异;各观察值之间的差异;比比如如,同

61、同一一种种颜颜色色的的饮饮料料在在不不同同超超市市上上的的销销售量是不同的售量是不同的不不同同超超市市销销售售量量的的差差异异可可以以看看成成是是随随机机因因素素的的影影响响,或或者者说说是是由由于于抽抽样样的的随随机机性性所所造造成成的,称为的,称为随机误差随机误差 方差分析的基本思想和原理方差分析的基本思想和原理(两类误差)(两类误差)2. 系统误差系统误差在在因因素素的的不不同同水水平平(不不同同总总体体)下下,各各观观察察值值之间的差异之间的差异比比如如,同同一一家家超超市市,不不同同颜颜色色饮饮料料的的销销售售量量也也是是不不同同的的。这这种种差差异异可可能能是是由由于于抽抽样样的的

62、随随机机性性所所造造成成的的,也也可可能能是是由由于于颜颜色色本本身身所所造造成成的的,后后者者所所形形成成的的误误差差是是由由系系统统性性因因素素造造成的,称为成的,称为系统误差系统误差方差分析的基本思想和原理方差分析的基本思想和原理(两类方差)(两类方差)1.组内方差组内方差因素的同一水平因素的同一水平(同一个总体同一个总体)下样本数据的方差下样本数据的方差比如,无色饮料比如,无色饮料A1在在5家超市销售数量的方差家超市销售数量的方差组内方差只包含组内方差只包含随机误差随机误差2.组间方差组间方差因素的不同水平因素的不同水平(不同总体不同总体)下各样本之间的方差下各样本之间的方差比比如如,

63、A1、A2、A3、A4四四种种颜颜色色饮饮料料销销售售量量之之间间的的方差方差组间方差既包括组间方差既包括随机误差随机误差,也包括,也包括系统误差系统误差方差分析的基本思想和原理方差分析的基本思想和原理(方差的比较)(方差的比较)1.如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组组间间方方差差与与组组内内方方差差就就应应该该很很接接近近,两两个个方方差差的比值就会接近的比值就会接近12.如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组组间间方方差差与与组组内内方方差差的的比

64、比值值就就会会大于大于13.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异7.6.3 方差分析中的基本假定方差分析中的基本假定1.每个总体都应服从正态分布每个总体都应服从正态分布对对于于因因素素的的每每一一个个水水平平,其其观观察察值值是是来来自自服服从从正正态态分布总体的简单随机样本分布总体的简单随机样本比如,每种颜色饮料的销售量必需服从正态分布比如,每种颜色饮料的销售量必需服从正态分布2.各个总体的方差必须相同各个总体的方差必须相同对对于于各各组组观观察察数数据据,是是从从具具有有相相同同方方差差的的总总体体中中抽抽取的取的比如,四种颜色饮料的销售量的方差都相同比如,四种颜色

65、饮料的销售量的方差都相同3.观察值是独立的观察值是独立的比比如如,每每个个超超市市的的销销售售量量都都与与其其他他超超市市的的销销售售量量独独立立方差分析中的基本假定方差分析中的基本假定1.在上述假定条件下,判断颜色对销售量是否有显著影响,实际上也就是检检验验具具有有同同方方差差的的四四个个正正态总体的均值是否相等的问题态总体的均值是否相等的问题 2.如果四个总体的均值相等,可以期望四个样本的均值也会很接近四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分样本均值越不同,我们推断总体均值不同的证据就越充分 方差分析中基本假定方差分析中基本假定n 如果原假设成立,即如果原假设成立,即

66、H0: 1 = 2 = 3 = 4q四种颜色饮料销售的均值都相等四种颜色饮料销售的均值都相等q没有系统误差没有系统误差n 这意味着这意味着每个样本都来自均值为每个样本都来自均值为、方差为、方差为 2的的同一正态总体同一正态总体 X X Xf(X)f(X)f(X) 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 方差分析中基本假定方差分析中基本假定n如果备择假设成立,即如果备择假设成立,即H1: i (i=1,2,3,4)不全相等不全相等q至少有一个总体的均值是不同的至少有一个总体的均值是不同的q有有系统误差系统误差n 这意味着四个样本分别来自均值不同的四个正态总体这意味着四个样

67、本分别来自均值不同的四个正态总体 X X Xf(X)f(X)f(X) 3 3 3 3 1 1 1 1 2 2 2 2 4 4 4 4 n受不同因素的影响,研究所得的数据会不同。造成结果差异的原因可分成两类:1.一类是不可控的随机因素的影响,这是人为很难控制的一类影响因素,称为随机变量;2.另一类是研究中人为施加的可控因素对结果的影响,称为控制变量。n根据控制变量的个数,可以将方差分析分成根据控制变量的个数,可以将方差分析分成单因素方差分析和多因素方差分析。单因素方差分析和多因素方差分析。1.单因素方差分析的控制变量只有一个(但一的控制变量只有一个(但一个控制变量可以有多个观察水平)个控制变量可

68、以有多个观察水平)2.多因素方差分析的控制变量有多个。的控制变量有多个。表8-2 四种颜色饮料的销售量及均值超市( j )水平A ( i )无色(A1)粉色(A2)橘黄色(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平均值观察值个数x1 =27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值x =28.695双因素方差分析双因素方差分析 (一个例子)(一

69、个例子)不同品牌的彩电在各地区的销售量数据 品牌(因素A) 销售地区( 因素B )B1B2B3B4B5A1A2A3A4365345358288 350368323280 343363353298 340330343260 323333308298 【例例例例】有有四四个个品品牌牌的的彩彩电电在在五五个个地地区区销销售售,为为分分析析彩彩电电的的品品牌牌( (因因素素A A) )和和销销售售地地区区( (因因素素B B) )对对销销售售量量是是否否有有影影响响,对对每每个个品品牌牌在在各各地地区区的的销销售售量量取取得得以以下下数数据据,见见下下表表。试试分分析析品品牌牌和销售地区对彩电的销售量

70、是否有显著影响?和销售地区对彩电的销售量是否有显著影响? 7.6.4 单因素方差分析的数据结构单因素方差分析的数据结构 观察值 ( j )因素(A) i 水平A1 水平A2 水平Ak12:n x11 x12 x1k x21 x22 x2k : : : : : : : : xn1 xn2 xnk单因素方差分析的步骤单因素方差分析的步骤提出假设提出假设构造检验统计量构造检验统计量统计决策统计决策提出假设提出假设1.一般提法一般提法H0: 1 = 2 = k (因素有因素有k个水平)个水平)H1: 1 , 2 , , k不不全相等全相等2.对前面的例子对前面的例子H0: 1 = 2 = 3 = 4颜

71、色对销售量没有影响颜色对销售量没有影响H0: 1 , 2 , 3, 4不不全相等全相等颜色对销售量有影响颜色对销售量有影响构造检验的统计量构造检验的统计量(计算水平的均值计算水平的均值 )1.假假定定从从第第i个个总总体体中中抽抽取取一一个个容容量量为为ni的的简简单单随随机机样样本本,第第i个个总总体体的的样样本本均均值值为为该该样样本本的的全全部部观察值总和除以观察值的个数观察值总和除以观察值的个数2.计算公式为计算公式为 式中:式中: n ni i为第为第 i i 个总体的样本观察值个数个总体的样本观察值个数 x xji ji 为为第第 i i 个总体的第个总体的第 j j 个观察值个观

72、察值 构造检验的统计量构造检验的统计量(计算全部观察值的总均值计算全部观察值的总均值 )1.全部观察值的总和除以观察值的总个数全部观察值的总和除以观察值的总个数2.计算公式为计算公式为 构造检验的统计量构造检验的统计量(前例计算结果前例计算结果 )表8-2 四种颜色饮料的销售量及均值超市( j )水平A ( i )无色(A1)粉色(A2)橘黄色(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平均值观

73、察值个数x1 =27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值x =28.695构造检验的统计量构造检验的统计量(计算总离差平方和计算总离差平方和 SST)1.全部观察值 与总平均值 的离差平方和2.反映全部观察值的离散状况3.总离差平方和(总变异)其计算公式为 前例的计算结果:前例的计算结果:前例的计算结果:前例的计算结果: SST SST = (26.5-28.695)= (26.5-28.695)2 2+(28.7-28.695)+(28.7-28.695)2 2+ +(32.8-28.695)(32.8-28.695)2 2 =115.

74、9295 =115.9295构造检验的统计量构造检验的统计量(计算误差项平方和计算误差项平方和 SSW)1.每个水平或组的各样本数据与其组平均值的离差平方和2.反映每个样本各观察值的离散状况,又称组内离差平方和3.该平方和反映的是随机误差的大小4.误差项平方和(组内变异或是组内平方和)计算公式为 前例的计算结果:前例的计算结果:SSW SSW = 39.084= 39.084构造检验的统计量构造检验的统计量(计算水平项平方和计算水平项平方和 SSB)1.各组平均值 与总平均值 的离差平方和2.反映各总体的样本均值之间的差异程度,又称组间平方和3.该平方和既包括随机误差,也包括系统误差4.计算公

75、式为 前例的计算结果:前例的计算结果:SSB SSB = 76.8455= 76.8455构造检验的统计量构造检验的统计量(三个平方和三个平方和的关系的关系)P259总总离离差差平平方方和和(SST)、误误差差项项离离差差平平方方和和(SSW)、水平项离差平方和水平项离差平方和 (SSB) 之间的关系之间的关系SST = SSW+ SSB构造检验的统计量构造检验的统计量(三个平方和的作用三个平方和的作用)1. SST反映了全部数据总的误差程度;SSW反映了随机误差的大小;SSB反映了随机误差和系统误差的大小2.如果原假设成立,即H1 H2 Hk为真,则表明没有系统误差,组间平方和SSB除以自由

76、度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差3.判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小4.为检验这种差异,需要构造一个用于检验的统计量构造检验的统计量构造检验的统计量(计算均方计算均方 MS)1.各各离离差差平平方方和和的的大大小小与与观观察察值值的的多多少少有有关关,为为了了消消除除观观察察值值多多少少对对离离差差平平方方和和大大小小的的影影响响,需需要要将将其其平均,这就是均方,也称为方差平均,这就是均方,也称为方差2.计算方法是用离差平方

77、和除以相应的自由度计算方法是用离差平方和除以相应的自由度3.三个平方和的自由度分别是三个平方和的自由度分别是SST 的自由度为的自由度为n-1,其中其中n为全部观察值的个数为全部观察值的个数SSB的自由度为的自由度为k-1,其中其中k为因素水平为因素水平(总体总体)的个数的个数SSW 的自由度为的自由度为n-k构造检验的统计量构造检验的统计量(计算均方计算均方 MS)1. SSB的的均均方方也也称称组间方差,记记为为MSB,计计算算公公式为式为2. SSW的均方也称组组内内方方差差,记为MSW,计算公式为构造检验的统计量构造检验的统计量(计算检验的统计量计算检验的统计量 F )1.将将MSB和

78、和MSW进进行行对对比比,即即得得到到所所需需要要的的检检验验统计量统计量F2.当当H0为为真真时时,二二者者的的比比值值服服从从分分子子自自由由度度为为k-1、分母自由度为分母自由度为 n-k 的的 F 分布,即分布,即 构造检验的统计量构造检验的统计量(F分布与拒绝域分布与拒绝域)如果均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,F F F= = =MSBMSBMSB/ / /MSWMSWMSW1 1 1 F 分布分布F (k-1,n-k)0 0拒绝拒绝拒绝拒绝HH0 0不能拒绝不能拒绝不能拒绝不能拒绝H H H H0 0 0 0F F统计决策统计决策 将

79、将统统计计量量的的值值F与与给给定定的的显显著著性性水水平平 的的临临界界值值F 进进行行比比较较,作作出出接接受受或或拒拒绝绝原原假假设设H0的的决决策策根根据据给给定定的的显显著著性性水水平平 ,在在F分分布布表表中中查查找找与与第第一一自自由由度度df1k-1、第第二二自自由由度度df2=n-k 相相应应的的临临界值界值 F 若FF ,则拒绝原假设H0 ,表表明明均均值值之之间间的的差差异异是是显显著著的的,所所检检验验的的因因素素(A)对对观观察察值值有有显显著著影影响响若FF ,则不能拒绝原假设H0 ,表表明明所所检检验验的的因素因素(A)对观察值没有显著影响对观察值没有显著影响 单

80、因素方差分析表单因素方差分析表(基本结构基本结构)方差来源平方和SS自由度df均方MSF 值组间(因素影响) 组内(误差) 总和SSBSSWSSTk-1n-kn-1MSBMSWMSBMSW 对照输出结果的对照输出结果的对照输出结果的对照输出结果的ANOVAANOVA表表表表本章小结本章小结n7.1 抽样推断概述抽样推断概述q抽样的组织方式、抽样方法抽样的组织方式、抽样方法n7.2 7.3抽样推断的理论依据抽样推断的理论依据q中心极限定理:样本均值的分布服从正态分布中心极限定理:样本均值的分布服从正态分布n7.4 参数估计参数估计q抽样平均误差、抽样极限误差、概率度抽样平均误差、抽样极限误差、概率度q点估计、区间估计点估计、区间估计本章小结本章小结n7.5 假设检验假设检验q抽样的组织方式、抽样方法抽样的组织方式、抽样方法n7.6 方差分析方差分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号