线性回归的问题和分析方法扩展.ppt

资源描述

《线性回归的问题和分析方法扩展.ppt》由会员分享，可在线阅读，更多相关《线性回归的问题和分析方法扩展.ppt（45页珍藏版）》请在金锄头文库上搜索。

1、第五章第五章线性回归的问题和分析方线性回归的问题和分析方法扩展（下）法扩展（下）第一节多重共线性第二节随机解释变量第三节误差项非正态分布第四节最大似然估计1第一节第一节多重共线性多重共线性一、问题的性质和种类二、多重共线性的危害三、发现和检验四、多重共线性的克服和处理2一、问题的性质和种类1、严格多重共线性模型设定问题识别问题2、近似多重共线性主要是数据问题，也有模型设定问题 3二、二、（近似）多重共线性的危害（近似）多重共线性的危害*随着多重共线性程度的提高，参数方差会急剧上升到很大的水平，理论上使最小二乘法估计的有效性、可靠性和价值都受到影响，实践中参数估计的稳定性和可

2、靠程度下降。*证明：把矩阵分为根据分块矩阵的运算法则有4其逆矩阵左上角的首项为其中因此参数的最小二乘估计的方差为5三、发现和检验三、发现和检验（一）方差扩大因子检验（二）状态数检验6（一）方差扩大因子检验（一）方差扩大因子检验分析已知记为，为。7当时，当时，方差扩大因子，记作常以方差扩大因子是否大于10来判断第个解释变量是否存在较强的、必须加以处理的多重共线性。8（二）状态数检验（二）状态数检验1、状态指数将矩阵的每一列用其模相除以实现标准化，然后再求矩阵的特征值，取其中最大的除以最小的后再求平方根，得到该矩阵的“状态数”，记为：通常当大于20或30时，

3、认为存在较明显的多重共线性。 9确定哪些解释变量的系数受到多重共线性的影响：先计算各个特征值的“状态指数”这些状态指数的水平在1到之间，很可能有好几个超过20-30的“危险”水平。102、回归系数方差分解:如果V V是对角化的(K+1) (K+1)对角矩阵：即其中是的特征值构成的对角矩阵。从而两种理解两种理解：如果特征值之和反映对被解释变量解释程度，倒数之和反映引起估计量方差的比重。 11四、多重共线性的克服和处理四、多重共线性的克服和处理（一）增加样本容量（二）差分方程（三）模型修正（四）分步估计参数（五）岭回归方法12（一）增加样本容量原理：样本容量越大，变量相关性越小，相关越难

4、。注意局限，且不一定解决问题。13（二）差分方程（二）差分方程线性回归模型为且已知和之间存在多重共线性问题。作如下变换：改用差分方程进行回归，受多重共线性的影响比较小。14（三）模型修正（三）模型修正1、删减解释变量（利用检验结论、经验等）2、整合解释变量（利用原模型回归信息、经验等）3、先验信息参数约束 15先验信息参数约束例：生产函数，经对数变换为：如果预先知道所研究的经济有规模报酬不变的性质，即函数中的参数满足就可以克服多重共线性。16（四）分步估计参数（四）分步估计参数例：研究需求规律的模型可以先求出模型中参数的估计值（用截面数据等）。前一个模型变为整理这个

5、模型可以得到从而估计出和的估计值和，得到克服了多重共线性的回归直线17（五）岭回归方法（五）岭回归方法设一个多元线性回归模型为普通最小二乘估计的公式为当解释变量间存在严重的多重共线性时，矩阵接近于奇异。用代替代入最小二乘估计的公式，得到：其中称为“岭回归参数”，一般，是用矩阵对角线上元素和构成的对角线矩阵。 18（五）岭回归方法（五）岭回归方法估计量的数学期望为：19第二节第二节随机解释变量随机解释变量一、解释变量的随机性二、随机解释变量和参数估计的性质三、工具变量法估计四、参数估计量的分布性质和统计推断20一、解释变量的随机性和问题解释变量有随机性是普遍的问

6、题。随机解释变量有不同的情况，关键是与误差项的相关性。不同情况对回归分析的影响不同，处理也不同。21二、随机解释变量和参数估计的二、随机解释变量和参数估计的性质性质设模型为其中误差项符合古典线性回归模型的各个假设。参数二乘估计的参数为：把代入，得到22如果是随机变量，但与误差项不相关，那么：以为条件的的条件方差是最小方差，从而的方差也是最小方差。23如果是随机变量，与误差项小样本不独立，但大样本渐进不相关，即那么因为因此是的一致估计。虽然不是无偏估计。24三、工具变量法估计三、工具变量法估计设模型为其中不仅是随机变量，而且与有强相关性。对模型作离差变换得两边乘并求和得

7、然后两边除以，有25 的“工具变量法估计”为，即的估计可以利用的估计得到26多元回归工具变量法估计引进、选择多个关键变量。向量、矩阵表示。工具变量的选择问题：与替代解释变量相关性强与误差相相关性小避免引起共线性问题27四、参数估计量分布问题和统计推断四、参数估计量分布问题和统计推断问题问题：分布未知两变量线性回归模型参数估计量多元回归模型参数的最小二乘估计影响影响：t、F检验等仍基本有效。统计量渐近t分布。 F统计量类似。28存在随机解释变量时相关统计推断受到一定的影响29第三节第三节误差项非正态分布误差项非正态分布一、问题的提出二、误差项正态性的检验30一、问题的提出

8、误差项正态分布假设也不一定成立。误差项不服从正态分布时，称“非正态误差项”影响：统计推断、假设检验的有效性等，相关统计推断、检验结论的可靠性降低。31二、误差项正态性的检验二、误差项正态性的检验（一）直方图检验类似“高尔顿板”32（二）偏斜度和峰度检验“偏斜系数” ：用代替，用代替。“峰度”指标：其中用代替。，33第四节第四节最大似然估计最大似然估计一、最大似然估计的原理二、两变量线性回归模型参数的最大似然估计三、多元线性回归模型参数的最大似然估计四、随机解释变量模型的最大似然估计五、最大似然估计的性质34一、最大似然估计的原理一、最大似然估计的原理根据事物出现的概率（几率、可能

9、性）的大小，推断事物的真相，包括定性的和定量的（参数水平）真相。例1：一个老战士和一个军训学生各射击一次，但只有一枪中靶。问可能是谁打中的。35例2：观测到一个服从未知参数的泊松分布的随机变量的10个数据的样本，这些数据分别为5、0、1、2、3、2、3、4、1、1，要求估计出该泊松分布的未知分布参数。根据泊松分布的概率公式，该随机变量的数值为的概率为10个数据出现的联合分布概率为36这个联合分布概率就是生成上述10个数据的似然函数，记作，即它的对数似然函数是（对数函数的单调性）求导可得的最大似然估计必须满足所以。37二、两变量线性回归模型参数的最大二、两变量线性回归模型参数的最大似

10、然估计似然估计设模型为根据误差项服从正态分布的假设，有因此这个模型参数的似然函数是38对数似然函数为最大化的一阶条件为39解一阶条件方程组可以得到最大似然估计为40三、多元线性回归模型参数的最大似三、多元线性回归模型参数的最大似然估计然估计模型为其中似然函数为对数似然函数为41求导可得解这个方程组可得42四、随机解释变量模型的最大似然估四、随机解释变量模型的最大似然估计计只讨论解释变量的分布满足下面两个条件的模型（1）随机解释变量的多元密度函数的参数中，不包含需要估计的模型参数、或前者的部分。（2）和分布独立。 43似然函数为因为仍然成立，因此对数似然函数为44五、最大似然估计的性质五、最大似然估计的性质（1）最大似然估计是一致估计，即（2）最大似然估计渐近于正态分布，即（3）最大似然估计是渐近有效的，且达到克拉美-劳下界。（4）不变性：如果是的最大似然估计，那么也是的最大似然估计。45

展开阅读全文

线性回归的问题和分析方法扩展.ppt

最新文档