单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2,推论统计,O、,预备知识,一、抽样分析,二、参数估计,三、假设检验的基本概念,四、t检验,五、F检验,六、检验,七、示例,管理研究和社会研究绝大部分都采用,样本研究,,从较大的研究对象总体中抽样收集数据最终目的是从样本来判断样本所在的总体的特性统计推断是一套有清晰逻辑程序的统计计算,对于从样本观测值得出的发现(findings),作出是否适用于总体的判断发现亦即研究的结果,这些结果不外乎以下几个方面的内容:,假设中的自变量和因变量之间有无关联?,这种关联的趋向和形式如何?,这种关联的强度如何?,这种关联是否是因果,自变量的属性值变化引起因变量的属性值变化,说明两变量间存在关联关联强度的判断则是指观测值中有多大比例的因变量属性值可以从自变量的属性值来解释统计技术用统计显著性来检验所观测到的关联是随机性的还是系统性的原因自变量和因变量之间存在关联并非表明自变量就是因,因变量就是果,因果辨析一般属于实证研究之后机理分析的内容数据分析的主要内容主要围绕变量间关联的存在性、趋向和形式、强度和统计显著性四个方面。
描述统计已涉及到存在性、趋向和形式的内容,推论统计则主要回答统计显著性问题2,推论统计,(,inferential statistics,),O、,预备知识,正态分布与有关的分布,定义1 设连续型随机变量X的密度函数为,称X服从正态分布,记作X,N,(,2,).,其中,,,均为常数,,,,0.,当,=,0,2,=1时,我们称X服从标准正态分布,即X,N,(0,1).,标准正态分布的密度和分布函数分别为:,定理 1 设,X,N,(,2,),则,(X)N(0,1).,定义 设X,1,,X,2,,X,n,为相互独立的随机变量,它们都服从标准正态N(0,1)分布,则称随机变量,服从自由度为n的 分布,记作Y (n).,定理 2 设X,1,,X,2,,,X,n,独立,同,N,(,,,2,)分布,记,则(1),(3)与,S,2,相互独立.,定义2 设XN(0,1),Y(n),且X与Y,相互独立,记,则T服从自由度为n的t分布,又称为学生(student)分布,记作,Tt,(,n,),定理3 设X,1,,X,2,,,X,n,独立,同,N,(,,,2,)分布,记,定理4 设X,1,,X,2,,,X,n,独立,同,N,(,1,,,2,)分布,Y,1,,Y,2,,Y,m,独立,同,N,(,2,,,2,)分布,且它们相互独立,记,则当,1,2,时,T,t,(,n+m,-2).,定义 3 设,X,Y ,X,与,Y,独立,则称随机变量,服从自由度为(n,1,n,2,)的F分布,记作FF(n,1,n,2,),一、抽样分析,样本统计值(sample statistics):描述样本分布情况的特性值。
总体参数值(population parameter):描述总体分布情况的特性值样本统计值是否能代表总体参数值,怎样才能代表参数值,这正是推论统计解决问题的出发点统计值和参数值两者的关系可以通过“抽样分布”,(sampling distribution)这个概念连通起来统计值的分布情况就是抽样分布统计推论可分为参数估计(parameter estimation)和假设检验二、参数估计,参数估计分为点估计(point estimation)和区间估计,(interval estimation),1、点估计,常用的点估计方法有矩法和极大似然估计(Maximum,Likelihood Estimation)样本均值,样本方差,参数是概率分布的特征值,各种概率分布有不同的特征值,最常用到的参数有平均数和方差,2,2、区间估计,估计偏差(,bias,),无偏估计:设 是未知参数的一个估计量,若有,则称 是的无偏估计量抽样误差:每次估计值和长期估计的平均值(,long-run average value,)之间的随机误差称作抽样误差抽样误差的一个很有用的特点是它符合正态分布点估计值给出了参数的一个近似值且是随机的,它跟随着样本的抽取而随机变化,估计值本身既没有反映这种近似的精确度,又没有给出误差范围。
为了弥补这些不足,人们希望估计出一个范围,并知道这个范围包含参数真值的可靠程度这样的范围通常以区间的形式给出,同时还要给出该区间包含参数真值的可靠程度这种形式的估计称为区间估计定义对于参数,,如果有两个统计量,和,对给定的(,),有,则称是,的一个区间估计或置信区间,为置信水平(置信度)一个正态总体的参数的区间估计,已知方差,,,对均值,的区间估计,未知方差,,,对均值,的区间估计,对方差的区间估计,三、假设检验的基本概念,1、对立假设,2、显著性试验,3、甲种误差和乙种误差,4、单边检验和双边检验,5、自由度,6、参数检验和非参数检验,根据样本提供的信息判断总体是否具有预先指定的特性进行假设检验的基本思想:某种带有概率性质的反证法基于的原则是:小概率事件在一次观察中可以认为基本上不会发生小概率事件:,通常把概率不超过0.05的事件当作“小概率事件”,有时把概率不超过0.01的事件当作“小概率事件”.,假设检验的步骤:,提出假设H,;备选假设H,构造统计量,并由样本算出其具体值,求出在H,下,统计量的分布,构造对H,不利的小概率事件,给定显著性水平,确定临界值,从而,得出,H,的否定域。
得出结论若统计量否定域,则拒绝,H,承认备选假设H,;,若统计量否定域,则接受H,、对立假设,待研究的假设可分为两类:,研究假设研究者希望验证的命题,对立假设(,null hypothesis,)研究假设的逻辑对立面,2、显著性试验,否定域,(,critical region,):一般说来,对于给定的显著水平,以及某一统计量,若有,P区域G,则称区域G为H,0,的否定域显著性水平(检验标准),1置信水平,直观意义:把概率不超过的事件当作一次观察不会发生的“小概率事件”3、甲种误差和乙种误差(检验中的两类错误),甲种误差(type error),:把正确的对立假设推翻的可能性,其出现的可能性大小取决于显著度实际情况是H,0,成立,而检验的结果表明H,0,不成立,即拒绝H,0,这时称该检验犯了第一类错误或,“弃真错误”,(,以真为假,)显著水平是犯第一类错误的概率乙种误差(typeerror):,把错误的对立假设视为真实的可能性纳伪错误”,(,以假为真,),4、单边检验和双边检验,双边检验,(twotailed test):否定域预设在正态分布的两端单边检验,(onetailed test):否定域预设在正态分布的一端。
5、自由度,自由度,(degree of freedom):自由度是指可以自由变动数值的样本数目.,6、参数检验和非参数检验,假设检验分为,参数检验,(parametric statistical test),非参数检验,(nonparametric statistical test)总体X的分布类型为已知,其中仅含有有限个未知参数,我们要做的只是对这些参数进行检验,称为,参数假设检验,在许多实际问题中,总体分布的类型往往不知道,或者知之甚少因此需要引进另一些统计方法,要求这些方法不依赖于总体分布的具体形式,这些方法称为,非参数方法,数据为定距和定比类型时对应的检验方法为参数检验数据为定类和定序类型以及总体偏态分布或分布情况不明的情况下,对应的检验方法为非参数检验四、t检验,1、t分布定义,t分布常用于数理统计中正态总体均值的区间估计和检验2、常用的两个定理(预备知识中定理3和定理4),3、,t检验,独立样本的t检验,独立样本的t检验计算公式为:,式中分子 ,为两平均值,n,1,n,2,表示样本组中样,本的个数,SS,1,和SS,2,为两组样本各自离差平方和举例,P,228,例5.2,H,0,:,1,=,2,H,1,:,1,2,非独立样本的t检验,如果样本经过某种形式的配对处理,则应用非独立样本的t检验.非独立样本的t检验算式为:,当,1,2,时,,t,t,(,N,-1),例P,例.,五、F检验,方差分析法,(,analysis of variance,)是用来处理两组或两组以上样本的统计方法,目的在于判断所发现的总误差主要是样本组内的误差还是各组之间的误差。
简单方差分析,方差分析法 方差因子分析,协方差分析,单因素方差分析数学模型,1、F分布定义,2、简单方差分析(单因素方差分析),简单方差分析将总误差划分为两种来源:一种是组间,由施加的试验处理形成;另一种是组内,由随机误差形成,单因素方差分析表,变异源,(,方差来源),方差和,(,平方和),自由度,平均数方差(MS),F值,组间(B),SS,B,k-1,组内(W),SS,W,N-k,总体(T),SS,T,N-1,计算SS,T,SS,W,SS,B,时,常按下列顺序进行,例 P,231,例5.4,三个班组在半年内的缺勤次数,班组,缺勤次数,x,1,x,2,x,3,1,2 2 2 3,3 4 5 6,4 4 4 5 7,24,10,20,22,90,122,54,234,5,5,5,15,变异源,方差和,自由度,均值,F值,组间(B),20.8,3-1=2,10.4,6.62,组内(W),18.8,15-3=12,1.57,总体(T),39.6,15-1=14,F检验表,查表 F,0.05,(2,12)=3.88,6.623.88 拒绝H,0,三个班的平均值有显著差异Scheffe,检验,Scheffe,检验是常用的多重比较法(,multi-comparison,),它用来细化,F,检验的结果,在组间差异显著情况下,辨别成对组件是显著差异还是随机差异。
在总体无显著差异情况下,也可能发现其中差异显著的两组仍以三个班缺勤率为例说明,Scheffe,检验的应用比较,x,1,与,x,2,两组,其,F,值算式为,简单方差分析得出的三者之间显著差异之结论为:夜班比早班的缺勤率显著高,而早班和中班及中班和夜班之间的缺勤率虽有差异但不显著.,六、检验,(chi-square test)检验是一种非参数检验,适用于定类变量,数据表达为频次形式,按两个或更多的相斥属性归类检验用于比较各类型事件的发生频次是否差异显著,现举例说明例 在超级市场随机选择90位顾客征求其对三种新品牌果酱的偏好,设由40位顾客选择品牌x,30位选择y,20位选择z,如对立假设为真,则,x=y=z,期望频次应为30,30,30,检验就要判别观察频次(40,30,20)和期望频次(30,30,30)之间的差异是否显著品牌,x,y z,观测频次,期望频次,40 30 20,30 30 30,各种检验方式比较,检验方法 组数,自变量数 数据类型,t检验,(,独立样本)2 1 定距、定比,t检验(非独立样本)2 1 定距、定比,简单方差分析 2 1 定距、定比,Scheffe检验 2 1 定距、定比,2,检验 2 1 定类,3 结构方程建模,一、简介,二、应用步骤,1、模型设定,2、模型辨识,3、模型估计,4、模型评价,5、模型修正,三、示例,1、研究假设,2、问卷设计及数据收集,3、数据处理和初步分析,4、假设验证,5、结果分析,。