概率与数理统计基础.ppt

资源描述

《概率与数理统计基础.ppt》由会员分享，可在线阅读，更多相关《概率与数理统计基础.ppt（54页珍藏版）》请在金锄头文库上搜索。

1、计量经济学数学计量经济学数学基础基础概率论与数理统计概率论与数理统计概率论与数理统计是研究概率论与数理统计是研究和揭示随机现象统计规律性的和揭示随机现象统计规律性的数学分支。主要包括：随机事数学分支。主要包括：随机事件和概率、随机变量的分布和件和概率、随机变量的分布和数字特征、中心极限定理和大数字特征、中心极限定理和大数定理、抽样分布、统计估计、数定理、抽样分布、统计估计、假设检验、回归分析等。假设检验、回归分析等。主要内容主要内容1.基本概念基本概念2.对总体的描述对总体的描述随机变量的数字特征随机变量的数字特征3.对样本的描述对样本的描述样本分布的数字特征样本分布的数字特征4.随机变量的

2、分布随机变量的分布5.通过样本，估计总体通过样本，估计总体估计量的特征估计量的特征6.通过样本，估计总体通过样本，估计总体估计方法估计方法7.通过样本，估计总体通过样本，估计总体假设检验假设检验第一节第一节基本概念基本概念总体和个体总体和个体样本和样本容量样本和样本容量随机变量随机变量统计量统计量1.1总体、个体、样本和样本容量研究对象的全体称为总体或母体，研究对象的全体称为总体或母体，通常指研究对象通常指研究对象的某项数量指标；的某项数量指标；组成总体的每个基本单位称为个组成总体的每个基本单位称为个体。体。从总体从总体X中抽出若干个个体称为中抽出若干个个体称为样本样本，一般记为，一般记为(

3、X1,X2,Xn)。n称为称为样本容量样本容量。而对这。而对这n个个体的个个体的一次具体的观察结果一次具体的观察结果(x1,x2,xn)是完全确定是完全确定的一组数值，但它又随着每次抽样观察而改变。的一组数值，但它又随着每次抽样观察而改变。(x1,x2,xn)称为称为样本观察值样本观察值。注意：抽样是按注意：抽样是按随机原则随机原则选取的，即总体中每个选取的，即总体中每个个体有同样的机会被选入样本。个体有同样的机会被选入样本。当人们在一定条件下对某一现象加以观察时，观察到当人们在一定条件下对某一现象加以观察时，观察到的结果是多个可能结果中的某一个，且在每次观察前都的结果是多个可能结果中的

4、某一个，且在每次观察前都无法预知观测结果到底是哪一个，即结果的出现呈现出无法预知观测结果到底是哪一个，即结果的出现呈现出偶然性，但是所有可能出现的结果是知道的。偶然性，但是所有可能出现的结果是知道的。随机现象具有偶然性一面，也有必然性一面。偶随机现象具有偶然性一面，也有必然性一面。偶然性然性一面表现在一面表现在“对随机现象做一次观测时，观测结果具有对随机现象做一次观测时，观测结果具有偶然性偶然性(不可预知性不可预知性)” ；必然性一面表现在必然性一面表现在“对随机现对随机现象进行大量重复观测，观测结果有一定的规律性，亦即象进行大量重复观测，观测结果有一定的规律性，亦即统计规律性统计规律性”。

5、具有不确定性具有不确定性(或随机性、偶然性或随机性、偶然性)的现象称为随机现象。的现象称为随机现象。特点特点：随机现象随机现象定义：定义：随机试验举例：随机试验举例： E E1 1: 掷一颗骰子，观察所掷的点数是几；掷一颗骰子，观察所掷的点数是几； E E2 2: 观察某城市某个月内交通事故发生的次数；观察某城市某个月内交通事故发生的次数； E E3 3: 对某只灯泡做试验对某只灯泡做试验, ,观察其使用寿命；观察其使用寿命； E E4 4: 对某只灯泡做试验对某只灯泡做试验, ,观察其使用寿命是否小观察其使用寿命是否小于于200200小时。小时。在实际问题中，随机试验的结果可以在实际问题

6、中，随机试验的结果可以用数量来表示，由此就产生了随机变用数量来表示，由此就产生了随机变量的概念量的概念有些试验结果本身与数值有关（本身就是有些试验结果本身与数值有关（本身就是一个数）一个数）. 例如，掷一颗骰子面上出现的点数；例如，掷一颗骰子面上出现的点数；七月份济南的最高温度；七月份济南的最高温度；每天从济南下火车的人数；每天从济南下火车的人数；昆虫的产卵数；昆虫的产卵数；它随试验结果的不同而取不同的值，因而在试验之前只知道它可能它随试验结果的不同而取不同的值，因而在试验之前只知道它可能取值的范围，而不能预先肯定它将取哪个值。由于试验结果的出现取值的范围，而不能预先肯定它将取哪个值。由于

7、试验结果的出现具有一定的概率，于是这种实值函数取每个值和每个确定范围内的具有一定的概率，于是这种实值函数取每个值和每个确定范围内的值也有一定的概率。值也有一定的概率。1.2 随机变量根据概率不同而取不同数值的变量称为根据概率不同而取不同数值的变量称为随随机变量机变量。一个一个随机变量具有这样的特性：可以取许随机变量具有这样的特性：可以取许多不同的数值，取每一个数值都有相应的多不同的数值，取每一个数值都有相应的概率概率p,0 p1。总体、随机变量、样本间的联系样本就是一个随机变量，所谓样本就是一个随机变量，所谓“样本容量样本容量为为n的样本的样本”就是就是n个相互独立且与总体有个相互独立且与总体

8、有相同分布的随机变量相同分布的随机变量X1,X2,Xn每一次具体抽样所得的数据，就是每一次具体抽样所得的数据，就是n元随机变量元随机变量的一个观察值，记为的一个观察值，记为X1,X2,Xn样本是总体的一部分。总体一般是未知的。样本是总体的一部分。总体一般是未知的。一般要通过样本才能部分地推知总体的情一般要通过样本才能部分地推知总体的情况。况。1.3 统计量统计量由样本值去推断总体情况，需要对样本值进行由样本值去推断总体情况，需要对样本值进行“加加工工”，这就要构造一些样本的函数，它把样本中所，这就要构造一些样本的函数，它把样本中所含的（某一方面）的信息集中起来。设含的（某一方面）的信息集中起来

9、。设(x1,x2,xn)为一组为一组样本观察值，函数样本观察值，函数y=f (x1,x2,xn)若不含有未知参数，若不含有未知参数，这种这种不含任何未知参数的样本的不含任何未知参数的样本的函数称为函数称为统计量统计量。它是完全由样本决定的量。它是完全由样本决定的量。统计量既然是依赖于样本的，而后者又是随机变量，统计量既然是依赖于样本的，而后者又是随机变量，故统计量也是随机变量。故统计量也是随机变量。几个常见统计量几个常见统计量样本均值：样本均值：样本方差：样本方差：第二节第二节对总体的描述对总体的描述随机变量的数字特征随机变量的数字特征2.1 数学期望数学期望2.2 方差方差2.3协方差协方

10、差2.1.1 数学期望：实际上就是一个加权数学期望：实际上就是一个加权平均值，描述随机变量的集中程度。平均值，描述随机变量的集中程度。数学期望描述随机变量（总体）的一般水平。数学期望描述随机变量（总体）的一般水平。定义定义1离散型随机变量数学期望的定义离散型随机变量数学期望的定义假定有一个离散型随机变量假定有一个离散型随机变量X有有n个不同的可个不同的可能取值能取值x1,x2,xn，而，而p1,p2,pn是是X取这些值相应的概率，则这个随机变量取这些值相应的概率，则这个随机变量X的数的数学期望定义如下：学期望定义如下：定义定义2连续型随机变量数学期望的定义连续型随机变量数学期望的定义2.1.

11、2数学期望的性质：数学期望的性质：（1）如果a、b为常数，则 E(aX+b)=aE(X)+b（2）如果X、Y为两个随机变量，则 E(X+Y)=E(X)+E(Y)（3）如果g(x)和f(x)分别为X的两个函数，则 Eg(X)+f(X)=Eg(X)+Ef(X)（4）如果X、Y是两个独立的随机变量，则 E(X.Y)=E(X).E(Y) 2.2.1方差的定义方差的定义离均差的定义离均差的定义若随机变量若随机变量X的数学期望的数学期望E(X)存在，称存在，称X- E(X)为随机变量为随机变量X的离均差。的离均差。方差的定义方差的定义离均差的平方的数学期望。离均差的平方的数学期望。设设X是随机变量，若是

12、随机变量，若EX-EX2存在，则称存在，则称EX-EX2为随机变量为随机变量X的方差，记为的方差，记为D(X)或或Var(X)，即，即 D(X)=EX-EX2 方差的算术平方根称为随机变量方差的算术平方根称为随机变量X的均方差的均方差或标准差。或标准差。2.2.2方差的意义方差的意义离均差和方差都是用来描述随机变量离散程度离均差和方差都是用来描述随机变量离散程度的，即描述的，即描述x对于它的数学期望的偏离程度，对于它的数学期望的偏离程度，这种偏差越大，表明变量的取值越分散。这种偏差越大，表明变量的取值越分散。一般情况下，常用方差来描述离散程度。因为一般情况下，常用方差来描述离散程度。因为离均差

13、的和为零，无法体现随机变量的总离散离均差的和为零，无法体现随机变量的总离散程度。事实上正偏差大或负偏差大，同样是离程度。事实上正偏差大或负偏差大，同样是离散程度大。方差中由于有了平方，从而消除了散程度大。方差中由于有了平方，从而消除了正负号的影响，并易于加总，也易于强调大的正负号的影响，并易于加总，也易于强调大的偏离程度的突出作用。偏离程度的突出作用。2.2.3方差的性质：方差的性质：（1）Var(c )=0（2）Var(c+x)=Var(x )（3）Var(cx)=c2Var(x)（4） Var(x-y)= Var(x )+Var(y )-2cov(x,y)Var(x+y)= Var(x )

14、+Var(y )+2cov(x,y)（5）Var(a+bx)=b2Var(x)（6）a,b为常数，x,y为两个相互独立的随机变量，则Var(ax+by)=a2Var(x)+b2Var(y)（7）Var(x)=E(x2)-(E(x)2 2.3协方差协方差Cov(X,Y)=E(X-EX)(Y-EY)Cov(X,Y)=E(XY)- E(X) E(Y)（积的期望减期望的积）积的期望减期望的积）第三节第三节对样本的描述对样本的描述样本分布的数字特征样本分布的数字特征样本均值样本均值反映样本集中程度反映样本集中程度样本方差样本方差样本标准差样本标准差描描述述样样本本离离散散程程度度第四节第四节随机

15、变量的分布随机变量的分布4.1 正态分布正态分布4.2 t分布分布4.3 卡方分布卡方分布4.4 F分布分布4.1 正态分布正态分布正态分布图形正态分布图形标准正态分布标准正态分布根据以上定理，可以将任何一个正态分根据以上定理，可以将任何一个正态分布化为标准正态分布，即将其标准化。布化为标准正态分布，即将其标准化。标准正态分布图形标准正态分布图形标准正态分布的分位数标准正态分布的分位数( (临界值临界值) ) 在实际问题中，在实际问题中，常取常取0.1、0.05、0.01.z0.05 =1.645 z0.01 =2.326 z0.01/2=2.575 z0.05/2=1.964.2t分布分

16、布定理定理1：若若XN(0, 1)，Y 2(n)，X与与Y独立，则独立，则定理定理2：设：设(X1,X2,Xn)是正态总体是正态总体N(,2)的的简单随简单随机样本，则机样本，则性质性质: (1) f(x)(1) f(x)关于x=0x=0(纵轴)对称。 (2) f(x)(2) f(x)的极限为N(0N(0，1)1)的密度函数，即当当n较较大时，大时， t分布分布近似于近似于标准正标准正态分布态分布.来定义来定义.其中伽玛函数其中伽玛函数通过积分通过积分若随机变量若随机变量X的概率密度为的概率密度为那么称那么称X服从自由度为服从自由度为n的的分布分布记作：记作：4.3 4.3 分布分布 2

17、 2分布的分布的密度函数的图密度函数的图形如右图形如右图. .应用中心极限定理可得，应用中心极限定理可得，，则当，则当n充分大时充分大时若若的分布近似正态分布的分布近似正态分布N(0,1).则则可以求得，可以求得， E(X)=n, Var(X)=2n若若若若X1,X2,Xn相互独立，且相互独立，且XiN(0,1) ，则，则性质性质1：性质性质2：则称X服从自由度为自由度为n1和和n2的的F分布。分布。n1称第一自由度， n2称第二自由度。定义定义：若随机变量 X的密度函数为4.4 F分布分布定理定理1 若若X 2(n1)，Y 2(n2) ，X,Y独立，则独立，则*定理定理2：设：设(X1,X

18、2,Xn1)是是N(1,12)的样本，的样本，(Y1,Y2,Yn2)是是N(2,22)的样本，且相互独立，的样本，且相互独立，S12，S22是样本方差，则是样本方差，则分位数问题分位数问题：第五节第五节通过样本，估计总体（一）通过样本，估计总体（一）估计量的特征估计量的特征5.1 无偏性无偏性5.2 有效性有效性5.3 一致性一致性所谓估计量的特性指的是衡量一个统计量所谓估计量的特性指的是衡量一个统计量用以估计总体参数的好坏标准。用以估计总体参数的好坏标准。5.1 无偏性无偏性估计量估计量的观察或试验的结果，估计值可能较真实的参数值偏大的观察或试验的结果，估计值可能较真实的参数值偏大或偏小，

19、而一个好的估计量不应总是偏大或偏小，在多或偏小，而一个好的估计量不应总是偏大或偏小，在多次试验中所得的估计量的平均值应与真实参数吻合，这次试验中所得的估计量的平均值应与真实参数吻合，这就是无偏性所要求的。就是无偏性所要求的。是一个随机变量，对一次具体是一个随机变量，对一次具体定义定义是是的一个估计量，如果的一个估计量，如果则称则称是是的一个无偏估计。的一个无偏估计。如果如果不是无偏的，不是无偏的，，就称该估计是有偏，就称该估计是有偏的。的。称称为为的偏差。的偏差。5.2 有效性（最小方差性、最优性）有效性（最小方差性、最优性）总体某个参数总体某个参数的无偏估计量往往不只的无偏估计

20、量往往不只一个，而且无偏性仅仅表明一个，而且无偏性仅仅表明的所有可的所有可能的取值按概率平均（均值）等于，能的取值按概率平均（均值）等于，它的可能取值可能大部分与相差很大。它的可能取值可能大部分与相差很大。为保证的取值能集中于附近，必须为保证的取值能集中于附近，必须要求的方差越小越好。所以，提出有要求的方差越小越好。所以，提出有效性标准。效性标准。有效性（最小方差性、最优性）定义有效性（最小方差性、最优性）定义对于参数对于参数的无偏估计量，其取值应在真值附近波动，的无偏估计量，其取值应在真值附近波动，我们希望它与真值之间的偏差越小越好。我们希望它与真值之间的偏差越小越好。定义定义设设

21、均为未知参数均为未知参数的无偏估计量，若的无偏估计量，若则称则称比比有效。有效。在在的所有无偏估计量中，若的所有无偏估计量中，若估计量，则称估计量，则称是具有最小方差的无偏是具有最小方差的无偏显然也是最有效的无偏估计量，简称显然也是最有效的无偏估计量，简称有效估计量有效估计量。为为最小方差无偏估计量最小方差无偏估计量。无偏有效估计量的意义无偏有效估计量的意义一个无偏有效估计量的取值在可能范一个无偏有效估计量的取值在可能范围内最密集于真值附近。换言之，它围内最密集于真值附近。换言之，它以最大的概率保证估计量的取值在真以最大的概率保证估计量的取值在真值附近摆动。值附近摆动。第六节第六节通过样

22、本，估计总体（二）通过样本，估计总体（二）估计方法估计方法点估计点估计普通最小二乘法普通最小二乘法所谓点估计就是给出被估计参数的所谓点估计就是给出被估计参数的一个特定的估计值。一个特定的估计值。区间估计区间估计区间估计的概念区间估计的概念所谓区间估计就是所谓区间估计就是以一定的可靠性以一定的可靠性给给出被估计参数的出被估计参数的一个可能的取值范围一个可能的取值范围。具体做法是找出两个统计量具体做法是找出两个统计量与与，使使称为置信区间，称为置信区间，称为置信系数称为置信系数（置信度），（置信度），称为冒险率（测不准的称为冒险率（测不准的概率），一般取概率），一般取5% 或或1%。对

23、区间估计的形象比喻对区间估计的形象比喻我们经常说某甲的成绩我们经常说某甲的成绩“大概大概80分左右分左右”，可以看成一个区间估计问题。（某，可以看成一个区间估计问题。（某甲的成绩甲的成绩为被估计的参数）为被估计的参数）下限下限上限上限大概80分左右置信系数（大概准确的程度）置信系数（大概准确的程度）冒险率（显著性水平）冒险率（显著性水平）（）（）区间估计的步骤区间估计的步骤找一个含有该参数的统计量；找一个含有该参数的统计量；构造一个概率为的事件；构造一个概率为的事件；通过该事件的概率解出该参数的区间通过该事件的概率解出该参数的区间估计估计关于区间估计的说明关于区间估计的说明在进行区间估计时，

24、应针对不同的情在进行区间估计时，应针对不同的情况，采用不同的方法。例如分清分布况，采用不同的方法。例如分清分布的形式是已知还是未知；是大样本还的形式是已知还是未知；是大样本还是小样本；小样本又得分清是已知方是小样本；小样本又得分清是已知方差还是未知方差。充分利用分布信息差还是未知方差。充分利用分布信息可以得到较精确的估计。可以得到较精确的估计。一般地，越大置信度越低，反之则一般地，越大置信度越低，反之则反。反。第六节第六节通过样本，估计总体（三）通过样本，估计总体（三）假设检验假设检验1.假设检验的定义假设检验的定义设总体设总体X的分布函数的分布函数F(x, )的形式已知，但是其中的形式已知

25、，但是其中的参数的参数未知。现在对参数提出假设：未知。现在对参数提出假设：，然，然后利用样本值对这个假设作出检验，判断其真伪，后利用样本值对这个假设作出检验，判断其真伪，这就是参数的假设检验。这就是参数的假设检验。设总体设总体X的分布函数形式未知，现在假设它的分布的分布函数形式未知，现在假设它的分布函数为某个指定函数函数为某个指定函数，然后利用样本信息进，然后利用样本信息进行检验，判断其真伪，这就是非参数的假设检验。行检验，判断其真伪，这就是非参数的假设检验。一般研究参数的假设检验问题。一般研究参数的假设检验问题。2.2.原假设与备择假设原假设与备择假设原假设：是我们进行统计假设检验欲确

26、定其是原假设：是我们进行统计假设检验欲确定其是否成立的假设否成立的假设体现进行假设检验的目的，体现进行假设检验的目的，而且往往是希望否定这个假设，一般用而且往往是希望否定这个假设，一般用H0表表示。示。备择假设：是原假设的对立面，统计假设检验备择假设：是原假设的对立面，统计假设检验是二择一的判断，当原假设不成立时，不得是二择一的判断，当原假设不成立时，不得不接受它，一般用不接受它，一般用H1 表示。表示。3.显著性水平显著性水平：显著性水平：显著性水平可以理解为事件显著不可能发生的水平；可以理解为事件显著不可能发生的水平；可以理解为原假设的数值与真实值显著差异大可以理解为原假设的数值与真实值

27、显著差异大小的水平；小的水平；是小概率事件；是小概率事件；是指犯是指犯“第一类错误第一类错误”（原假设）的可能性；（原假设）的可能性；一般取值很小，一般取值很小，0.1，0.05，0.01，0.005.4.4.基本思想：基本思想：“小概率原理小概率原理”数理统计学中的数理统计学中的“小概率原理小概率原理”认为：概率很小的事件在一认为：概率很小的事件在一次抽样试验中几乎是不可能发生的。次抽样试验中几乎是不可能发生的。小概率事件的构造：找到在原假设成立的条件下，统计量的小概率事件的构造：找到在原假设成立的条件下，统计量的分布特征，然后根据分位数可以构造一个小概率事件（如后分布特征，然后根据分位数可

28、以构造一个小概率事件（如后面的图示面的图示）。）。如果小概率事件发生了。说明出错了，那么，错在那里呢？如果小概率事件发生了。说明出错了，那么，错在那里呢？因为，在整个假设检验过程中，抽样是正确的、统计量的选因为，在整个假设检验过程中，抽样是正确的、统计量的选择是正确的、根据显著水平确定的临界值是正确的、统计量择是正确的、根据显著水平确定的临界值是正确的、统计量的计算是正确的，统计量与临界值的比较也是正确的。因而，的计算是正确的，统计量与临界值的比较也是正确的。因而，只能是原假设发生了错误，所以必须拒绝只能是原假设发生了错误，所以必须拒绝H0。思想：在假设检验中，首先提出原假设、备择假设，然后构

29、思想：在假设检验中，首先提出原假设、备择假设，然后构造一个小概率事件，把求得的统计量与查表得到的临界值比造一个小概率事件，把求得的统计量与查表得到的临界值比较，看看小概率事件是不是发生，如果发生，拒绝原假设，较，看看小概率事件是不是发生，如果发生，拒绝原假设，否则接受。否则接受。5.两类错误的概念两类错误的概念由于我们是用样本推断总体，因而假设检验的结果不由于我们是用样本推断总体，因而假设检验的结果不可能绝对正确，它有可能是错误的，错误有两类：可能绝对正确，它有可能是错误的，错误有两类：第一类：弃真，原假设符合实际情况，而检验结果把第一类：弃真，原假设符合实际情况，而检验结果把它否定了。它否定

30、了。第二类：纳伪，原假设不符合实际情况，而检验结果第二类：纳伪，原假设不符合实际情况，而检验结果却把它肯定下来。却把它肯定下来。6.假设检验的步骤假设检验的步骤1、提出原假设和备择假设、提出原假设和备择假设 H0： = 0 H1： 02、根据根据原假设，找到统计量的分布，构原假设，找到统计量的分布，构造小概率事件。造小概率事件。3、根据抽样所得样本计算检验统计量根据抽样所得样本计算检验统计量4、确定显著性水平、确定显著性水平和相应的临界值和相应的临界值5、将计算的统计量与临界值进行比较。、将计算的统计量与临界值进行比较。看看小概率事件是不是发生，如果发生，看看小概率事件是不是发生，如果发生，拒绝原假设，否则接受。拒绝原假设，否则接受。

展开阅读全文

概率与数理统计基础.ppt

最新文档