统计学知识复习

上传人:re****.1 文档编号:479093529 上传时间:2023-02-27 格式:DOCX 页数:9 大小:92.51KB
返回 下载 相关 举报
统计学知识复习_第1页
第1页 / 共9页
统计学知识复习_第2页
第2页 / 共9页
统计学知识复习_第3页
第3页 / 共9页
统计学知识复习_第4页
第4页 / 共9页
统计学知识复习_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《统计学知识复习》由会员分享,可在线阅读,更多相关《统计学知识复习(9页珍藏版)》请在金锄头文库上搜索。

1、第一节基础知识概率分布列岀所有可能岀现的结果及每个结果发生的概率。把抛硬币的取值看作一个随机变量;生成这个随机变量的过程是二项概率分布。一个连续型随机变量可以取实数轴上的任何值,而一个离散型随机变量只能取若干特定的实数值。连续型分布中,随机变量的取值位于某两个值之间的概率是由这两个值之间连续密度函数之下的面积决定的。期望值。人们经常用均值和方差来描述概率分布,它们都是由期望算子E定义的。设XI、X2-XN代表随机变量X的N个可能结果,贝UX的均值或期望值是所有可能结果的一个加权平均值,其中权重为各结果发生的概率。X的均值(记为uX)定义为:N四x=E(X)=P1X1+p2X2+?+PnXn=P

2、iXf/-I其中P,为X,发生的概率,丹=1,且E()为期望算子。随机变量的方差是随机变量在其均值周围分散或离散程度的一个度量,记为2a-v(在离散型随机变量情况下),方差的定义为NVar(X)=成=PA%-E(X)2z=i方差是X的取值与其期望值之差平方的加权平均,其中权重为相应取值发生的概率。有关期望算子的三个主要的结论:结论1E(aX+b)=aE(X)+b其中X是随机变量,。、方是常数结论2ERaX)2=a2E(X2)结论3Var(aX+b)a2Var(X)随机变量的联合分布:在离散情形下,联合分布可以用一个概率分布表描述,这个分布表列岀X和Y所有可能结果岀现的概率。将X和Y的协方差定义

3、为X、Y与各自均值离差乘积的期望Cov(X,Y)=E(X-E(X)(Y-E(Y)NNPijAi-E0)1与-E(Y)其中Pi表示X与Y发生的联合概率。协方差是X与Y之间线性相关关系的一个度量。如果两个变量总是同时大于或小于各自的均值,则协方差为正。如果丫小于其均值时X大于其均值,或者丫大于其均值时X小于其均值,则协方差为负。协方差的值依赖于X和Y的度量单位。因此我们经常用到相关系数。p(x,r)其中j和勺分别代表府口勺标准差。与协方差不同,相关系数经过了标准化,没有量纲。可以证明相关系数的值总在-1到+i之间。一个正的相关系数表示变量的运动是同方向的,而负相关系数表示变量的运动是反方向的。结论

4、4如果JV和K是随机变量,EOy)=EO)+E(F)结论5Var(*Y)=Var(A)+Var(y)+2Cov(X,y)独立与相关在某些情况下,Y结果发生的概率与X结果发生的概率无关。我们称X和Y是独立的随机变量。结论6如果X和1独立,E(XY)=E(X)E(Y)O结论7如果X和】独立,Cov(X,1-)=0.结论7说明,如果两个随机变量是独立的,它们的协方差为0。这个结论很直观,因为X和Y之间的独立意味着一个变量的结果与另一个变量的结果没有关系。这样的话,X与其均值之间的离差和Y与其均值之间的离差也没有关系。然而,必须注意的是,这个结果不可逆,这一点很重要。相关系数为0的两个变量仍可能是不独

5、立的。关键在于方差和相关系数度量的是线性相关性;相关系数为邸J变量间可能会具有非线性相关关系。估计:通过样本对总体的特征进行推断。只能利用样本信息来寻找尽可能好的估计。由于样本估计值随样本的不同而不同,我们就可以描述出它的概率分布。重复抽取新的样本并每次分别计算样本均值和方差,我们可以得到这个抽样分布。均值的抽样分布可以度量样本均值落在区间中概率。中心极限定理:如果一个随机变量遇有均值四和方差则随着N增大,无的抽样分布越来越接近于均值为N方差为网N的正态分布。对于充分大的样本容量,正态分布的假设将使得我们能够大大地简化统计检验。随着样本容量增大,我们会直观地认为均值的估计值总的来说会离总体均值

6、越来越近。实际上如果样本容量非常大或等于总体,样本均值的估计值应当等于总体均值。这种直观感觉适用于具有有限均值的概率分布,不局限于正态分布。方差:var(X)=er;=E(X时var(X)=Z(X-Z/)2y3)X=(X-#)f(x)dxvar(X)=E(X”)2=打(乂2)我协方差:cov(X,Y)=研(X-4)(K-Av)相关系数.?户驱箜(J(JX)估计量的有用性质1、无偏差一个与回归参数估计有关的非常有用的性质是,估计量的分布应以该参数作为其均值。如果&的均值或期望值等于真值楫即F(P)=P,我们就说6是一个无偏估计量。无偏估计2.有效性如果对于给定的样本容量,无偏估计量6的方差小于任

7、何其他无偏估计量的方差,则称P是一个有效的无偏估计量。有时很难确定一个估计量是否有效,因此用估计量的相对有效性来描述估计量是很自然的。如果一个估计量比另一个估计量的方差小,这个估计量就比另一个更有效。-1p非有效估计壑睇鄙霎是&P有效估计3.一致性考虑当样本容量非常大时估计量的性质,即渐近性质或大样本性质。我们希望当样本容量增加时,估计量6越来越接近真值当A趋向无穷时,IP-61小于一个任意小的正数的概率趋于1。R依概率收敛于P如果6依概率收敛于P,贝席是6的一致估计上,这个估计量就上,这个估计量就如果当样本容量增到任意大时估计量的概率分布都落在同一个点(参数的真值)是一致的估计量。作为一个法

8、则,计量经济学家一般更关心一致性而不是无偏性。有偏但是一致的来不等于真实值,但是当样本信息量增大时,它可以趋近于参数真值。估计量虽然平均说概率分布卡平方分布、t分布及F分布都是由正态分布所导岀的分布,它们与正态分统计中常用的分布。正态分布:(可以由均值方差完全描述出来)正态分布是一个连续的形状为钟形的概率分布。一?个正态分布可以由它的均述出来。布一起,是试验值和方差完全描如果羽艮从正态分布,我们可以记X?服从均值为七方差为的正态分布。如果*眼从正态分布,则PX=X,)=A=?exp-矗(X,一了解以下的结果对统计检验是有用的:ProbWx-1.96rzXiV取+l?96ojr)。?95Prob

9、(fJLX-2.57尤022r(90,其他式中的2.H-oo厂u=Jo1redufl/分布是非对称分布,具有可加性,即当W,称为Gamma数,且v/丫与Z相互独立,且Y?/(n),Z=1,TCZ(m),贝Y+Z?/(n+m)t分布(单位正态分布与卡分布的平方相除)在统计学中,有时假设随机变量的方差是已知的。当方差未知时,我们如何进行假设检验?其答案依赖于t分布。结论12假设观从均值为0方差为1的正态分布,Z服从自由度为N的X分布,如果X和Z独立,那么X/VZB服从自由度N为的r分布。图2-9t分布和正态分布一样,t分布也是对称的,而且当样本容量很大时,它趋近于正态分30时更是如此由于(A-1F

10、/0;服从/分布,且(X-nx)l(rx/VN)u_-(X-妇/y/(N-l)5|/(7xSx服从t分布。因此吩布可以用来在方差未知的情况下检验随机变量的均值是否对于显著性水平为5%的显著性检验,N很大时t分布的临界值约等于正态分布的当样本容量大于或等于20时,临界值为2.0是一个合理的近似。考虑前面入学考试成绩SATs的例子,但假设21个考试成绩的样本均值为(对应于标准差真值)为100。由于自由度为20的t分布的临界值(显著086,成绩高于708(=500+2.086(100)分的概率为2.5%。且等于某一特定值。临界值1.960500,估计的标准差性水平为5%)为2.若X与Y相互独立,X?

11、N(0,1),Y?,(n),贝UZX?N(0,1),Y?,(n),贝UZ的分布称为自由度等于n的t分布,布。但是t分布的尾巴比正态分布的宽大,特别是样本容量小于回忆对幽行标准化后得到才-axNgg它是一个均值为0、单位方差的正态分布。但如果q未知,我们必须用研来代替。(X-,ix)/(ax/y/N)是标准正态分布,结论12告诉我们记作Z?t(n),它的分布密度1(丁/7Z+P(沪?皆)请注意:t分布的分布密度也是偶函数,且当n30时,t分布与标准正态分布N(0,1)的密度曲线几乎重叠为?-。这时,t分布的分布函数值查N(0,1)的分布函数值表便可以得到。资布是两个卡分布相除,用于检验两个回归参

12、数的联合检验)在有些情况下我们希望进行检验涉及两个或更多回归参数的联合检验。如:原假设为截距和斜率均为0,备择假设为其中之一不为0或两个均不为0。合适的检验统计量是基于F分布的,它以2个参数为其特征。第一个参数与被估计参数的个数有关,第二个参数与自由度有关。F分布与X分布一样,不是对称的,值域从。到无穷大。图2-10F分布F分布可用于检验两个方差是否相等。它的作用可由结论13推岀。结论13如果X和Z是独立的,均服从史分布,其自由度分别Ni为和巨,则(X/Ni)/(Z/N2)服从自由度为Ni和M的F分布。与Y相互独立且贝以=/秫的分布称为第一自由度等于n、第二自由度等于m的F分布,记作Z?F(n

13、,m),它的分布密度p(z)=(m+nz)2其他。请注意:F分布也是非对称分布,它的分布密度与自由度的次序有关,当Z?F(n,m)时,Z?F(m,n)ot分布与F分布的关系:若X?t(n),则Y=X?F(l,n)。假设检验与置信区间第1章中学生平均成绩的例子就是一个简单的应用。0.12的斜率使我们对家庭收入对成绩的影响有了一个很好的估计,但是这个估计可靠吗?尤其是我们怎么才能肯定斜率的确不为0,即收入与学生的平均成绩确实有关系?这就是一个假设检验问题。与假设检验有关的一个概念就是置信区间。即便0.12是斜率的一个很好的估计,我们也不会认为0.12就是学生家庭收入与平均成绩之间关系的斜率。为了说明它的可靠程度,我们需要用数据来对斜率的估计做岀统计结论。具体来说就是,我们会发现我们能够说区间0.160.18以0.95的概率包含斜率的真值。区间0.160.18称为斜率的一个0.95的置信区间。假设检验和置信区间之间的关系是很密切的。为了说明这一点,假设我们希望检验假设:斜率等于0。我们说原假设

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号