讲义3多元线性回归模型_假设检验

上传人:大米 文档编号:551031373 上传时间:2022-11-01 格式:DOC 页数:11 大小:168.50KB
返回 下载 相关 举报
讲义3多元线性回归模型_假设检验_第1页
第1页 / 共11页
讲义3多元线性回归模型_假设检验_第2页
第2页 / 共11页
讲义3多元线性回归模型_假设检验_第3页
第3页 / 共11页
讲义3多元线性回归模型_假设检验_第4页
第4页 / 共11页
讲义3多元线性回归模型_假设检验_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《讲义3多元线性回归模型_假设检验》由会员分享,可在线阅读,更多相关《讲义3多元线性回归模型_假设检验(11页珍藏版)》请在金锄头文库上搜索。

1、讲义3多元线性回归模型:推断主要内容:1、推断的数学知识复习2、Size, power的含义3、OLS估计量的样本分布4、单约束检验t检验5、多约束检验一F检验对应教材内容:chapter2.5自由度的概念自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个 数。2 2 2 2例:假设n个独立变量Xi、N(0,1),那么(Xi X2. Xn) (n );随机向量的分布与数字特征 协方差矩阵设Y是一个由多个随机变量组成的向量,即丫二(丫 丫2,,丫.),那么丫的期望为E (Yi)4卩=E (Y )=-E(Yn) 一1人一丫的协方差矩阵为1 二 E(丫-)(丫- J E

2、(Yii) .E(Yi - j)(Yn - S)II二 |.IE( Yn - 叫)(丫1 -比).E( Yn-4n)2 一对于n个随机变量的线性组合,丫,有E (: J .: nYn) = E (: 丫)二:JVar (: 丫)多变量的正态分布X(72),其中X为n维列向量,常被称为正态向量;为期望向量,111丄1)为协方差矩阵。X的密度函数为f(X)=(2j/2|打八炯匸g八(X正态向量的线性函数若X N匸),那么AX b N(A, b, Ar A)标准正态向量的二次型壮2若 X N (0, I n),A 是幕矩阵,那么 X AX (rank (A)n022特别地,X M X =瓦(Xi X

3、) l (n 1)。i 3幕矩阵二次型的独立性设X N (0, I n),A和B都是幕矩阵,那么如果AB = 0就有x ax和X BX就独立满秩二次型的分布设XN (二),那么1/212二 (X _ r N(O,I) , (X - T 厂(X 一)(n)。线性函数与二次型的独立性设X - N (0, In) , LX是X的线性函数,X AX是X的二次型,那么如有LA=0必有LX和 X ax独立。临界值的概念设X的分布函数为F,x:.满足F(x:.) = PX乞xj 八,0 : 1,则称X:.为F的:临 界值或分位数(点)。例1:对称分布U N (0,1)的临界值2 2例2:非对称分布 (n -

4、 1)的临界值区间估计对于参数日,如果有两个统计量 氏,Xn)02,Xn),满足对给定的:(0,1),有P氏兰 0 兰 0?2 = 1 口则称区间必,乱是日的一个区间估计或置信区间,8?、贰 分别称作置信下限、置信上限,1 - 称为置信水平。置信水平为1-,在实际上可以这样理解:如取1 r: =95%,就是说若对某一参数二取100个容量 为n的样本,用相同方法做100个置信区间。0T,釘),k=1,2,10那么其中有95个区间包 含了真参数 才因此,当实际上只做一次区间估计时,我们有理由认为它包含了真参数。这样判断 当然也可能犯错误,但犯错误的概率只有 5%。寻找置信区间的通常方法是从已知抽样

5、分布的统计量,如上文提到的U,X和T入手,由于分布和概率已知,只要确定临界值就可以了。假设检验原理的复习 第一步,建立假设H 0称为原假设,Hi称为备择假设。注意:在假设检验中,原假设H。与备选假设出的地位是不对等的。一般来说:.是较小的,因而检 验推断是“偏向”原假设,而“歧视”备选假设的。既然 Ho是受保护的,则对于H。的肯定相对来 说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于H。的否定则是有力的,且越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。 在应用中,如果要用假设检验说明某个结论成立,那么最好设 H。为该结论不成立。例3.1

6、(单侧检验):H 0- -o,H!, %第二步,构造统计量,求出统计量的样本分布以及由样本观察值算出其具体值。X _卩统计量t : 在H 成立的条件下,t t(n - 1);对应的具体值记为?S f J n - 1第三步,根据备择假设构造出对H。不利的小概率事件一一在给定显著性水平下,确定临界值, 构造出拒绝域。在一个问题中,通常指定一个正数:(o- 1 ),认为概率不超过的事件是在一次试验中几乎不会发生的事件,称为显著性水平。:=0.05,算出临界值t(n -1)。V -tt.(n - 1),这里V是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体第四步,得出结论方法1 :根据计算出来

7、的t值,看样本是否落在V内,若落在V内,则拒绝H 0,否则,不能拒绝H 如果t? t.( n -1),则称能以的显著性水平拒绝零假设;否则,不能拒绝零假设;方法2:比较p值和。p值定义为不能拒绝零假设的最大的显著性水平;Pt ?,也就是在t-分布中大于统计量?的概率。比较p值和预先设定的显著性水平。如果p值v ,则称能以的显著性水平拒绝零假设;否则,不能拒绝零假设。例3.2 :(双侧检验)H 卩=卩 H, 卩式 A0 0 , 1 0与例3.2不同的地方在于第三步和第四步。第三步,令:=0.05,算出临界值tn -1) oV二| t | J (n -1),这里V是拒绝域,它是使得这一小概率事件发

8、生的样本空间的点的全体第四步,如果t?落在拒绝域,则能拒绝零假设;否则,不能拒绝零假设;思考:若用方法2,那么p值是多少?由于统计量是随机变量,假设检验可能犯两种类型的错误。当H。成立,而检验的结果表明H 不成立,即拒绝了 H ,这时称该检验犯了第一类错误(type I error)或“弃真”的错误;第一类错误的概率就是在 H。成立的条件下V的概率P(V | H ); 检验的显著性(size of tes) = ?当h 0不成立,Hi成立,而检验的结果表明H 0成立,即接受了 H 0,这时称该检验犯了第 二类错误(type II error),或称“取伪”的错误。犯第二类错误的概率是卩= PX

9、-V|Hi。定义一个检验的 势(power of test = 1 P。给定多元线性回归方程:y 0 i Xjk 1 k ,(i = 1,2,., n)OLS估计量的样本分布在有限样本下进行假设检验,除了假定 假定5扰动项服从正态分布|X A70,a2ln)1到假定4, 一般还需要加上假设5:ry2那么,得到,b|XN(:,二(XX)其中,bj |X NC j,;(X X);)单个线性约束的假设检验:t检验 原理:t统计量=N(0,1)/.2 - t分布;证明:因为(bjj)/(二(X X )j) |X N (0,1)Iee”门2 |X (n - k -1)cr所以(bj - :j)/se(b

10、j)|X t(n - k-1 )单个参数的线性假设检验(0弘:伤=0t = bj / se(bj)t(n - k - 1)上述的t检验又称系数的显著性检验,是回归分析最常见的检验之一。t检验的步骤:1) 根据样本数据计算t统计量;2) 确定显著性水平,一般可选择取1%,5%, 10%。3) 确定备择假设,由此确定是单侧检验还是双侧检验。4) 根据自由度为n - k -1的t分布计算临界值,单侧检验计算 仁,双侧检验计算t“2。或者 计算p值:双侧检验的Pd二Pr(| T | 11 |);单侧检验的p值Ps二Pd /25) 最后比较临界值与t统计量,或者比较p值和显著性水平。例子:房产价格与空气

11、污染price = 0。+ 0叩出 + strati o + zl首先估计方程,得到系数 OLS估计值及其标准差:log(pmr) = 1 L08 .954 log(/rav)+ .255 ivams .052 straiio (0.32)(.1 17)(XU3)(.019)(.006)n = 506. R1 = .581.然后进行系数显著性检验。H0 :; H 1 : M - 0(n) Ho =险b - I。t - 巳 t(n - k -1) se(bi)例子(续):T.厂H ; 1 : 1单个线性约束的假设检验(川)弘:烧+角=1-(b2b3 -1).var( b2 b3) t(n - k

12、 -1)(加)f 3 = 04.(b3 -b4) var( b3 _ bq) t(n - k -1)多个线性约束的假设检验:F检验兀:R/3 = rF检验(Rb- r/ R(X/X)-1R,1 _1 (Rb -F统计量服从F(J, n - k -1)2 1 证明:Step1,由假定 5 推出 R(b - J|X N0,匚 R(X X) - R ;2 _1 2 (Rb r) R(X X) R 在原假设H0下,Rb - r | XN0工R(X X ) R ;j2(Rb - r),那么有 w|X (J)。Step2 ,e e 名 M g 因为r二CT-| X N(0,ln)推出ee2|X (n -

13、k-1)。CTStep3,由 Cov (b, e)二 0 推出 w | Xe e和T | X独立tj 1 1严 (Rbr)R(X X) R (Rbr)/J所以;F(J, n-k-1)。e e /(n k -1)F统计量的两种更简便的计算方法:2 2(Ru - Rr)/J(e*e* - e e) / JF 2e e/(n - k - 1)( Rd ) /(n - k - 1)其中SSRr、rR是约束回归的残差平方和以及决定系数;SSRu及决定系数。rU是无约束回归的残差平方和以讨论几种常见的约束:(v)Ho :十 2= 0ESS/kR /kF- F(k, n-k-1)RSS/( n k -1)(

14、1 R )/(n k1)上述检验称为联合显著性检验,也是回归分析的常见检验。对于F检验,备择假设通常描述为“ H1 : H 0不是真的”。根据样本数据计算F统计量,如果 F(k, n - k -1),则拒绝H0(诃)弘:02 = 0其中B 2是k2维向量“ 一 efe)/k2 eefin k)F检验和T检验2当J= 1时,F统计量可以转换为t统计量:F (1, n - k - 1) = t(n - k - 1),即单个约束条件 可以用t检验。考虑原假设:H。: :2 =0, 3 - 0方法一:用F检验。方法二:对各个系数分别采用t检验。这两个检验不是等价的。因此,可能出现的两种矛盾情形:1) t检验显著,F联合检验不显著。此模型是病态模型。在计量中甚少出现,2) t检验不显著,F联合检验显著。此模型有多重共线性。在计量中会出现

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号