Excel回归结果的解读－金锄头文库

资源描述

《Excel回归结果的解读》由会员分享，可在线阅读，更多相关《Excel回归结果的解读（7页珍藏版）》请在金锄头文库上搜索。

1、1Excel 回归结果的解读利用 Excel 的数据分析进行回归，可以得到一系列的统计参量。下面以连续 10 年积雪深度和灌溉面积序列（图 1）为例给予详细的说明。图 1 连续 10年的最大积雪深度与灌溉面积（19711980）回归结果摘要（Summary Output）如下（图 2）：图 2 利用数据分析工具得到的回归结果2第一部分：回归统计表这一部分给出了相关系数、测定系数、校正测定系数、标准误差和样本数目如下（表1）：表 1 回归统计表逐行说明如下：Multiple 对应的数据是相关系数(correlation coefficient)，即 R=0.989416。R Square 对应的

2、数值为测定系数(determination coefficient)，或称拟合优度(goodness of fit)，它是相关系数的平方，即有 R2=0.9894162=0.978944。Adjusted 对应的是校正测定系数(adjusted determination coefficient)，计算公式为1)(12mnRa式中 n 为样本数，m 为变量数， R2 为测定系数。对于本例，n=10，m=1，R 2=0.978944，代入上式得 9763.010)84.)(1a标准误差（standard error）对应的即所谓标准误差，计算公式为 Semns这里 SSe 为剩余平方和，可以从下

3、面的方差分析表中读出，即有 SSe=16.10676，代入上式可得 41892.067.1*0s最后一行的观测值对应的是样本数目，即有 n=10。第二部分，方差分析表方差分析部分包括自由度、误差平方和、均方差、F 值、P 值等（表 2）。表 2 方差分析表（ANOVA）逐列、分行说明如下：第一列 df 对应的是自由度（ degree of freedom），第一行是回归自由度 dfr，等于变量数目，即 dfr=m；第二行为残差自由度 dfe，等于样本数目减去变量数目再减 1，即有3dfe=n-m-1；第三行为总自由度 dft，等于样本数目减 1，即有 dft=n-1。对于本例，m=1，n

4、=10，因此，dfr=1，dfe=n-m-1=8，dft=n-1=9。第二列 SS 对应的是误差平方和，或称变差。第一行为回归平方和或称回归变差 SSr，即有 8542.7)(Sr12niiiy它表征的是因变量的预测值对其平均值的总偏差。第二行为剩余平方和（也称残差平方和）或称剩余变差 SSe，即有1067.)(Se12niiiy它表征的是因变量对其预测值的总偏差，这个数值越大，意味着拟合的效果越差。上述的y 的标准误差即由 SSe 给出。第三行为总平方和或称总变差 SSt，即有 961.74)(Sr12niiiy它表示的是因变量对其平均值的总偏差。容易验证 748.8542+16.10676

5、=764.961，即有Ster而测定系数就是回归平方和在总平方和中所占的比重，即有 9784.061.74528St2R显然这个数值越大，拟合的效果也就越好。第四列 MS 对应的是均方差，它是误差平方和除以相应的自由度得到的商。第一行为回归均方差 MSr，即有 8542.71.8dfrM第二行为剩余均方差 MSe，即有 03.6.feS显然这个数值越小，拟合的效果也就越好。第四列对应的是 F 值，用于线性关系的判定。对于一元线性回归，F 值的计算公式为221dfe)(1Rmn式中 R2=0.978944，dfe=10-1-1=8，因此 9453.798.01*F第五列 Significance

6、 F 对应的是在显著性水平下的 F 临界值，其实等于 P 值，即弃真概率。所谓“弃真概率”即模型为假的概率，显然 1-P 便是模型为真的概率。可见，P 值越小越好。对于本例，P=0.00000005420.0001，故置信度达到 99.99%以上。4第三部分，回归参数表回归参数表包括回归模型的截距、斜率及其有关的检验参数（表 3）。表 3 回归参数表第一列 Coefficients 对应的模型的回归系数，包括截距 a=2.356437929 和斜率b=1.812921065，由此可以建立回归模型 ii xy8129.3564.2或 iii .第二列为回归系数的标准误差（用或表示），误差

7、值越小，表明参数的精确度越asb高。这个参数较少使用，只是在一些特别的场合出现。例如 L. Benguigui 等人在 When and where is a city fractal?一文中将斜率对应的标准误差值作为分形演化的标准，建议采用 0.04作为分维判定的统计指标（参见 EPB2000）。不常使用标准误差的原因在于：其统计信息已经包含在后述的 t 检验中。第三列 t Stat 对应的是统计量 t 值，用于对模型参数的检验，需要查表才能决定。t 值是回归系数与其标准误差的比值，即有，astbt根据表 3 中的数据容易算出：，289167.7.135642at 285.1904.8bt

8、对于一元线性回归，t 值可用相关系数或测定系数计算，公式如下 12mnRt将 R=0.989416、n=10、m=1 代入上式得到 285.910846.9t对于一元线性回归，F 值与 t 值都与相关系数 R 等价，因此，相关系数检验就已包含了这部分信息。但是，对于多元线性回归，t 检验就不可缺省了。第四列 P value 对应的是参数的 P 值（双侧）。当 P0.05 时，可以认为模型在 =0.05的水平上显著，或者置信度达到 95%；当 P0.01 时，可以认为模型在 =0.01 的水平上显5著，或者置信度达到 99%；当 P0.001 时，可以认为模型在 =0.001 的水平上显著，或

9、者置信度达到 99.9%。对于本例， P=0.00000005420.0001，故可认为在 =0.0001 的水平上显著，或者置信度达到 99.99%。P 值检验与 t 值检验是等价的，但 P 值不用查表，显然要方便得多。最后几列给出的回归系数以 95%为置信区间的上限和下限。可以看出，在 =0.05 的显著水平上，截距的变化上限和下限为-1.85865 和 6.57153，即有5713.685.1a斜率的变化极限则为 1.59615 和 2.02969，即有 0299b第四部分，残差输出结果这一部分为选择输出内容，如果在“回归”分析选项框中没有选中有关内容，则输出结果不会给出这部分结果。残差

10、输出中包括观测值序号（第一列，用 i 表示），因变量的预测值（第二列，用表iy示），残差（residuals ，第三列，用 ei 表示）以及标准残差（表 4）。表 4 残差输出结果预测值是用回归模型 ii xy8129.3564.2计算的结果，式中 xi 即原始数据的中的自变量。从图 1 可见， x1=15.2，代入上式，得1189.3564.2xy 9284.5*. 其余依此类推。残差 ei 的计算公式为 iiiye从图 1 可见，y 1=28.6，代入上式，得到 31284.9.26.811ye其余依此类推。标准残差即残差的数据标准化结果，借助均值命令 average 和标准差

11、命令 stdev 容易验证，残差的算术平均值为 0，标准差为 1.337774。利用求平均值命令 standardize(残差的单元格范围，均值，标准差)立即算出表 4 中的结果。当然，也可以利用数据标准化公式6)var(*iizziz逐一计算。将残差平方再求和，便得到残差平方和即剩余平方和，即有 1067.)(1212niiini yeS利用 Excel 的求平方和命令 sumsq 容易验证上述结果。以最大积雪深度 xi 为自变量，以残差 ei 为因变量，作散点图，可得残差图（图 3）。残差点列的分布越是没有趋势（没有规则，即越是随机），回归的结果就越是可靠。用最大积雪深度 xi 为

12、自变量，用灌溉面积 yi 及其预测值为因变量，作散点图，可得iy线性拟合图（图 4）。最大积雪深度 x(米 ) Residual Plot-3-2-101230 5 10 15 20 25 30最大积雪深度 x(米 )残差图 3 残差图最大积雪深度 x(米 ) Line Fit Plot01020304050600 10 20 30最大积雪深度 x(米 )灌溉面积y(千亩) 灌溉面积 y(千亩 )预测灌溉面积y(千亩 )图 4 线性拟合图7第五部分，概率输出结果在选项输出中，还有一个概率输出（Probability Output）

13、表（表 5）。第一列是按等差数列设计的百分比排位，第二列则是原始数据因变量的自下而上排序（即从小到大）选中图 1 中的第三列（C 列）数据，用鼠标点击自下而上排序按钮，立即得到表 5 中的第二列数值。当然，也可以沿着主菜单的“数据(D ) 排序(S)”路径，打开数据排序选项框，进行数据排序。用表 5 中的数据作散点图，可以得到 Excel 所谓的正态概率图（图 5）。表 5 概率输出表Normal Probability Plot01020304050600 20 40 60 80 100Sample Percentile灌溉面积y(千亩)图 5 正态概率图【几点说明】第一，多元线性回归与一元线性回归结果相似，只是变量数目 m1，F 值和 t 值等统计量与 R 值也不再等价,因而不能直接从相关系数计算出来。第二，利用 SPSS 给出的结果与 Excel 也大同小异。当然，SPSS 可以给出更多的统计量，如 DW 值。在表示方法上，SPSS 也有一些不同，例如 P Value（P值）用 Sig.（显著性）表征，因为二者等价。只要能够读懂 Excel 的回归摘要，就可以读懂 SPSS 回归输出结果的大部分内容。

展开阅读全文