第4章 回归分析• 第1节 线性回归原理 • 第2节 回归分析例第1节 线性回归原理• 主要内容 – 回归模型 – 回归计算原理例解 – 回归分析的说明力回归分析的目的及结论的判断• 回归分析的目的 – 找出影响或决定某一现象的各种因素,并定量给出各 个因素影响的大小 – 其中“现象”及“各种因素”都是有关总体的特征,所以 本质上讲,回归分析的目的就是揭示某种客观规律 • 回归结论的判断 – 回归结果必须经过假设检验,检验结果可以是显著的 、有统计意义(Significant),也可以是不显著的 – 只有显著的、有统计意义的结果才可以作进一步的分 析,成为决策的依据回归模型与回归方程• 回归模型 – 描述被说明变量(Dependent variable)如何依赖于 说明变量(explanatory variables)和误差项的方程• 回归方程 – 描述被说明变量的期望值如何依赖于自变量的方程• 区别 – 解释回归结果时,严谨的说法是:x变化1单位,平均 而言,y变化β1单位• 回归归的基本假设:参数β是客观观存在的实实数, 即β反映了X 对对Y 的影响力 • 回归归的目标标:利用样样本的数据尽可能准确地计计 算β的估计值计值 b• 参数(parameter)和估计值计值 (estimate)的区别别: 参数β是不可知的某个固定值值,而估计值计值 b是基 于当前样样本计计算出的统计统计 量(statistic),估计计 值值随样样本的变变化而变变化,是随机变变量关于回归模型的理论概述描述总体的模型描述样本的模型回归的估计方程• 回归的 估计方程– 根据样本数 据计算的回 归方程– 计算过程如 右图12一元线性回归• 变量 – 被说明变量y 和说明变量x 及误差项• 观察值(observation或obs) – 被说明变量和说明变量的数据对, (yi, xi)• 样本(sample) – 观察值的集合 – {(y1, x1), ., (yn, xn)}一元线性回归式的全样本描述• 回归式的向量形式及展开(n为样本大小)一元线性回归的计算例• 实证假设 – 大学生的生活费与年级成正比 • 数据: – 某专业学生各年级学生平均月生活费• 方法: – 一元线性回归年级x1234 生活费y350360380540计算过程1:带入数据带入数据,求残差e 回归计算原理是使这4个残差最小,即使用 普通最小二乘法 Ordinary Least Squares 或 OLS年级x1234 生活费y350360380540由极值的一阶条件:计算过程2: 求参数αβ的估计值a b普通最小二乘法(OLS):求残差平方和的最小值得回归的估计方程(忽略残差e) :计算过程3: 求拟合值、残差• 被说明变量y 的拟合值ŷ(fitted value)– 即回归直线上某点的纵轴值,也称理论值或预 测值。
将各x值带入回归的估计方程可求得:• 残差 – 即y值中,说明变量x没有说明的部分 – 残差= y的实际值- y的拟合值 = y-ŷ实际值拟合值残差 ActualFittedResidualxy=260+59x+e260+59xe=实际值 - 拟合 值1.00 350.00 319.00 31.00 2.00 360.00 378.00 -18.00 3.00 380.00 437.00 -57.00 4.00 540.00 496.00 44.00 实际值、拟合值、残差(表)实际值、拟合值、残差(图)回归分析的说明力• 回归的说明力 – 回归模型对被说明变量y 的变化有没有说明力 – 分为单个变量的说明力和变量全体的说明力 • 单个变量的说明力 – 各说明变量x 对被说明变量y 的变化有没有说明 力,判断标准是各系数的t 检验 • 变量全体的说明力 – 回归模型是否有效,判断标准是模型的F 检验 及判定系数R2单个变量的说明力( t 检验)• 问题 – 在前述回归归的估计计方程中,系数估计值计值 a、b是随机变变 量,有误误差(即标标准差)– 假如b 的标标准差≥b,会造成什么后果? – b的标标准差多大可以接受? • 解答 – 假如b 的标标准差≥b,则则b≈0的概率较大,而b≈0表示x对 y 没有实质影响,即 x 对y 没有说明力 – 一般认为认为 系数估计值计值 b的标标准差要小于b的一半,此时时 对应对应 的|t值值|≥2(大样本时)单个变量的说明力: 回归归系数的t 检验检验• 检验检验 的假设设 • 检验检验 的统计统计 量:b的样样本t 值值• 检验结检验结 果判断 – |样样本t 值值|≥| t0.05|,显著,拒绝H0,即β≠0,x 对y 有实 质影响, x 是回归模型中一个有意义的说明变量 |样样本t 值值|5%,不显著变量全体的说明力一: F 检验• 检验的假设• 检验的统计量: F值– F值越大,y 的变化中被x 说明的部分越大,变量全体 的说明力越强 • 检验结果判断 – F值越大,对应的p 值越小,越显著 – p值≤5%时,在5%显著水平下拒绝H0,即至少一部分x 是有说明力的。
– p值>5%时,在5%显著水平下接受H0,即回归无效变量全体的说明力二: R2 • 判定系数R2 – 衡量估计的回归方程的拟合度,具体说是 y 的变化中 被x 说明的部分所占比重, – R2越大被x 说明的部分所占比重越大,变量全体的说明 力越强 • 调整R2 (adjusted R2) – 在回归式中,添加变量只会增大R2 ,不会减小R2 ,为 避免过度添加变量,每增加一个变量,对R2适当扣减 ,即成为调整R2 (式中p为说明变量个数)调整R2 =变量全体的说明力: F 检验及判定系数R2的关系• F 检验越显著,判定系数R2的值越大• F 检验不显著,表示回归模型中所有系数均为0, 即没有一个x 变量对y 有影响,所以回归模型整体 无效,R2 再大也无任何意义回归说明力例(生活费Expense与年级Grade)•1、单个变量的说明力? •2、变量全体的说明力?•1、t检验:年级对生活费无影响 •2、F检验:模型无效 R2无意义 模型无效的原因:样本太小时序列(time series)回归的常见问题• DW统计量(Durbin-Watson statistic) – 检验残差的序列共相关(serial correlation) – 计算方法• DW≈2:模型正常 • DW≠2:模型存在序列共相关问题,系数估计值 的准确性差第2节 回归分析例• 主要内容 – 使用回归分析作实证研究的全过程,包括提出 实证问题、对数据进行统计描述、统计推断、 最后得出结论回归例• 实证问题:校警是否可以减少校园犯罪? • 数据:1991年美国97所大学数据(FBI) • 方法:多元线性回归 • 变量: crime(犯罪数) police(校警数) private(是否私立) students(学生数) • 步骤:统计描述、统计分析、结论EViews数据表统计描述(图形法)1: 主要变量的分布图• 横轴为变量的取值,纵轴为取该值的频率 • 变量的分布图比基本统计量更直观、详细犯罪数Crime的分布图校警Police的分布图统计描述(图形法)2: 主要变量的散点图• 犯罪数和校警 数的关系(红 线为一元回归线)• 犯罪数和校警 数有一定正关 系,但随着校 警数的增长, 正关系减弱统计描述(数值法)1 :基本统计量表• 一些显著特征: – 犯罪数的标准差大于均值,而校警数相反 – 私立学校占比很小 – 犯罪数、校警数、学生数的分布均偏左CRIMEPOLICEPRIVATESTUDENTS 犯罪数校警数是否私立学生数Mean均值394.45 20.49 0.12 16076.35 Median中值187.00 16.00 0.00 11990.00 Maximum最大值2052.00 74.00 1.00 56350.00 Minimum最小值1.00 1.00 0.00 1799.00 Std. Dev.标准差460.78 15.63 0.33 12298.99 统计描述(数值法)2:相关系数表• 因为校园犯罪是所关心的变量,故关注该变量与 其他变量的相关性 • 相关系数表是统计分析的出发点。
各系数是回归 变量的选择、取舍的重要依据CRIMEPOLICEPRIVATESTUDENTS 犯罪数校警数是否私立学生数 CRIME1.00 POLICE0.72 1.00 PRIVATE-0.22 -0.28 1.00 STUDENTS0.84 0.72 -0.30 1.00 规范的回归结果:简略报告法• 如方框所示,直接将系数估计值带入回归式 (框中为最基本信息,缺一不可)• 说明力较强:只有Priv系数不显著,且 • 系数估计值的含义 – 学生增加1000人,犯罪增加约25起 – 从系数看,私立校犯罪比公立校多约75起,但|t值 |<2系数估计值无统计意义此结论不成立 – 警察增加1人,犯罪增加约8起(注:括弧内为t 值)规范的回归结果: 详细报告法VariableCoefficientStd. Errort-StatisticProb. 变量系数估计值标准差t值p值 C常数项-174.078** 47.679 -3.651 0.000 POLICE校警数7.787** 2.267 3.434 0.001 PRIVATE是否私立75.060 78.575 0.955 0.342 STUDENTS学生数0.025** 0.003 8.572 0.000 R-squared: 0.734 Adjusted R-squared: 0.725 Durbin-Watson: 2.038 F-statistic: 85.46 Prob 0.0000 Obs: 97 • 简略法、详细法只用一种 • 详细报告法更常用,推荐使用,尤其是变量较多时 • 因为Coefficient/Std. Error = t-Statistic,所以一般可 省略 Std. Error 或省略t-Statistic • 时序列数据回归应报告Durbin-Watson统计量,横截面数 据可省略注:**表示在1%水平显著分析结论• 单纯增加校警不能减少校园犯罪• 根据本样本可以推测,美国大学增加校警 并不是为了减少校园犯罪,而是被动地应 付增加的校园犯罪。