区间估计与假设检验

上传人:豆浆 文档编号:50724861 上传时间:2018-08-10 格式:PPT 页数:93 大小:4.66MB
返回 下载 相关 举报
区间估计与假设检验_第1页
第1页 / 共93页
区间估计与假设检验_第2页
第2页 / 共93页
区间估计与假设检验_第3页
第3页 / 共93页
区间估计与假设检验_第4页
第4页 / 共93页
区间估计与假设检验_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《区间估计与假设检验》由会员分享,可在线阅读,更多相关《区间估计与假设检验(93页珍藏版)》请在金锄头文库上搜索。

1、第五章 区间估计与假设检验 经典正太线性回归模型 统计学预备知识 区间估计基本概念回归系数1和2的置信区间2的置信区间一、经典正太线性回归模型所谓统计推断的经典理论由两个分支构成,即估计和假设检 验。前面讨论了双变量线性回归模型的参数估计问题。用OLS方 法,估计参数1 ,2 ,2 。在经经典线线性回归归模型的假定下 ,可以证证明 、 和 这这些参数的估计计量满满足线线性性、 无偏性和最小方差(BLUE)。估计计量的值值随样样本变变化而变变化,因此,这这些估计计量都是随 机变变量。估计是成功的一半。假设检验是另一半。回归分析的目的,不仅仅是估计样本回归函数,而是要用估 计来对总体回归函数进行推

2、断。我们想知道, 和 与真 实的 和 有多接近。由于 、 和 是随机变量,所以我们需要清楚它们的概 率分布,若不知其概率分布,那我们就无法将它们与其真实 值相联系。1. 干扰项ui 的概率分布为得到OLS的概率分布,我们将专门考虑 :(4.1.1)其中假定X 为固定或非随机的,则条件回归分析就以Xi 的固定值为条 件。方程(4.1.1)表明, 是Yi 的一个线性函数,Y i根据假定是随 机的。由于则由于ki ,系数和Xi 都是固定的,所以 最终是ui 的一个线性函 数。假定ui 为随机变量,则 的概率分布将取决于对ui 的概率 分布所做的假定。在上一章,我们把普通最小二乘法应用于经典线性回归模

3、型 时,并没有对干扰项ui 的概率分布做出假定。对这些ui 所做的假定仅是:(1)它们 的期望值为零,(2 )它们是不相关的,(3)它们有一个不变的方差。有了这 些假定,OLS中估计量满足诸如无偏性和最小方差的统计性 质。但是,我们的兴趣不仅要得到 ,还要利用它对真值 做出推断。或者说,我们的目的不仅是要得到样本回归函数 ,还要用它来推测总体回归函数。尽管有了高斯-马尔可夫定理,但由于OLS法不对ui的概率 性质做任何假定,仍难以从SRF去推断PRF。对这一不足,在回归分析中,人们常常假定ui遵从正态分 布。在第4章中讨论的经典线性回归模型的假定中增加ui 的正 态性假定,就得到了所谓的经典正

4、态线性回归模型(classical normal linear regression model, CNLRM)2. 关于ui 的正态性假定经典正太线性回归假定每个ui 都是正态分布的,并且:均值:方差:协方差:这些假定可更简洁的表述为:其中 代表“其分布为”,N代表“正态分布”,括号中的两项 代表正态分布的两个参数:均值和方差。性质:对两个正态分布变量来说,零协方差或零相关就意 味着两个变量互相独立。因此,在正态性假定下,ui 和uj 协方差为零不仅意味着它 们不相关,而且它们是独立分布的。可写成:NID表示正态且独立分布(normally and independently distrib

5、uted)。为什么是正态假定?1.ui 代表回归模型中未明显引进的许多自变量(对因变量) 的总影响。我们希望这些影响是微小的而且是随机的。利用 统计学中著名的中心极限定理(central limit theorem), 就能证明,如果存在大量独立且相同分布的随机变量,那么 随着这些变量的个数无限增大,它们的总和将趋向正态分布 。 回顾中心极限定理。令 为n个独立的、有均值= ,方差= 的相同PDF的随机变量。令 (样本均值),那 么2. 正态分布的一个性质是,正态分布变量的任何线性函 数都是正态分布的。OLS估计量 和 是ui 的线性 函数,因此,若ui 是正态分布的,则 和 也是正 态分布的

6、。3. 正态分布是一个比较简单、仅有两个参数的分布,为 人们所熟知。4. 如果处理小样本或有限容量样本时,比如说数据少于 100次观测,那么正态假定就起到关键作用。它不仅有助 于推导出OLS估计量精确的概率分布,而且使我们能用t 、F和卡方来对回归模型进行检验。3. 在正态性假定下OLS估计量的性质1. 它们是无偏的。 2. 它们有最小方差。连同性质1,就意味着它们是最小方差无偏 的或者说它们是有效估计量(efficient estimators)。 3. 一致性。就是说,随着样本含量无限增大,估计量将收敛到 它们的真值。 4. ( ui 的线性函数)是正态分布的。均值: 方差: 方差:或者写

7、成:定义标准正态化变量:Z服从标准正态分布,写作:5. (ui 的线性函数)是正态分布的。均值: 方差:写成令同样的, Z服从标准正态分布。6. 服从n-2个自由度的 分布。7. 的分布独立于 。8. ,二、统计学预备知识1. 统计推断点估计参数估计的一种形式。目的是依据样本X=(X1,X2,Xn)估 计总体分布所含的未知参数或的函数 f()。一般或f() 是总体的某个特征值,如数学期望、方差、相关系数等。比如令,那么 就是真均值 的一个估计量。比如 。由于估计量 仅提供 的单一一点估计值,故称点估 计量(point estimator)。区间估计通过从总体中抽取的样本,根据一定的正确度与精确

8、度的要 求,构造出适当的区间,以作为总体的分布参数(或参数的函 数)的真值所在范围的估计。与点估计相对照,在区间估计中,我们提供真将落入其间间的 一个可能值值域。例如,如果变变量X是正态态分布的,则样则样 本均值值 也是正态态 分布的,且其均值值=,方差=2/n。即估计计量 的抽样样或概 率分布是 。因此我们们可以构造区间间:并这样这样 的区间约间约 有95%的概率包含真,那么我们们正在构造 着的一个区间间估计计。注意上面所给给的区间间依据于一个样样本 变变到另一个样样本的 ,所以是随机的。例如,=0.05,则则1-=0.95,意味着如果我们们构造一个置信系数 为为0.95的置信区间间,所构区

9、间间有95%的概率含有真时时。一般的 ,如果置信系数是1-,我们们常说说有一个100( 1- )%置信区间间 ,就是显显著性水平(level of significance)。构造两个估计计量 和 ,两者都是样样本X值值的函数,使得即我们们可以说说从 到 的区间间里含有真的概率是1-。此 区间间被称为为的置信度为为1-的置信区间间(confidence interval),而1-成为为置信系数(confidence coeffiect)。例假定总体中男子身高是正态分布的,其均值=英寸且=2.5 英寸。从总总体中取一个100人的随机样样本,其平均身高为为67 英寸,求总总体平均身高(= )的一个

10、95%的置信区间间。解:由于在本咧中 ,查查表可见见:将给给定的 , 和n值值代入,就得到这这个95%的置信区间间 为为:2. 假设检验假定随机变量X有一已知的概率密度函数f(x;),其中是分布的 参数,在取得一个大小为为n的样样本之后,我们们得到点估计计量 , 由于真鲜为鲜为 人知,提问问:这这个估计计量 是否与某个假设设的 值值相符?比方说说, , 是一个特定的(假定的) 数值值。称虚拟假设(null hypothesis),通常记为 。与虚拟假设相对的是对立假设(alternative hypothesis),通 常记为 ,可叙述为: 。一个假设被称为简单的,如果它确定了分布的各参数的各

11、一 个值;否则就称为复合假设,例如如果 ,并且这是一个简单假设。如果因为的值值未被确定,这这是一个复合假设设。为了检验虚拟假设(即检验其真实性),我们利用样本信息以获 得检验统计量(test statistic)。统计检验量常常就是未知参数的 点估计量。然后我们试图找出检验统计量的抽样或概率分布,并 利用置信区间或显著性方法去检验虚拟假设。接上例,考虑一个总体中的男子身高(X):现假设问题是:这个检验统计量为 的样本会来自均值为69的总 体吗?直觉上,如果 “足够接近” ,我们也许不会拒绝虚拟 假设,否则我们宁可拒绝它而接受对立假设。因为 ,所以检验统计量 的分布是:既然知道了 的概率分布,可

12、以根据 建立的一个100(1-) 置信区间间,然后看此置信区间间是否包含 。如果包含,就 不拒绝绝虚拟拟假设设;如果不包含,就可拒绝绝虚拟拟假设设。例如,取=0.05,将有一个95%的置信区间间。如果此区间间包含 ,由于这样建立起来的区间每100个中有95个会含有 ,我们就 不拒绝虚拟假设。怎样决定 是否足够接近“ ”呢?有两种方法:(1)置信区间法 (2)显著性检验法。(1)置信区间法置信区间法操作步骤:因 ,从而Zi 是一个标准正态变量,于是由正态分布表知:即整理得:这就是的一个95%置信区间间。一旦建立了这这个区间间,我们们所要 做的不外是看 是否落入此区间间。如果落入,就不拒绝绝虚 拟

13、拟假设设,如果不落入则则拒绝绝之。例 我们已建立的一个95%的置信区间间,即此区间显间显 然不包含=69,因此我们们能以95%置信系数拒绝绝真 是69的虚拟拟假设设。落入拒绝域拒绝域拒绝域接受域用假设检验的语言说,我们所建立的置信区间叫做接受域( acceptance region)。接受域以外的区域叫做虚拟假设的临界 域(critical region)或拒绝域(regions of rejection)。接受 域的上下限(与拒绝域的分界线)叫做临界值(critical values )。拒绝域是当原假设为真时,不太可能发生或发生概率很低的检验 统计量的数值的集合。如果使用样本数据时所取得的

14、检验统计量 的值落入了概率很低的区域中,则该检验统计量不太可能具有之 前假设的分布,因此原假设不太可能为真。因此,用假设检验的语言说,如果假设值落入接受区间,就不可 拒绝虚拟假设;否则可以拒绝。在决定拒绝绝或不拒绝绝H0时时,我们们可能犯两类错误类错误 :(1)拒绝绝一个事实实上是真的H0。第I类错误类错误 (type I error)这这种当虚拟拟假设为设为 真而拒绝绝虚拟拟假设设的错误错误 又称为为据 真错误错误 。其概率通常用表示,并称为显为显 著性水平(level of significance)。(2)没有拒绝绝一个不真的H0。第II类错误类错误 (type II error)即接受了错误错误 的虚拟拟假设设。这类错误这类错误 的概率记为记为 ,并 把不犯II类错误类错误 的概率1- 称为检验为检验 的功效(power of

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号