现代统计方法案例:(多项有序回归)根据某地区住户购房意向的数据,分析住户特征是如何影响其打算购买房屋类型的选择参与建模的解释变量包括文化程度、户口状况、年龄、家庭收入,被解释变量为购买类型(1为二手房,2为多层商品房,3为高层商品房,4为别墅)一、负对数-对数类型1、利用SPSS软件分析步骤首先筛选样本,在数据视图点击菜单栏的数据-选择个案,出现如下窗口,在窗口中点击如果条件满足选项得到如下窗口,将未来三年选入输入框,点击=2,表示选择未来三年为购买的样本点击继续,然后确定,样本就已筛选完成接下来进行具体分析,在数据视图菜单栏点击分析-回归-有序,出现如下窗口,其中因变量为购买类型,因子为户口状况和文化程度,协变量为年龄和家庭收入变量选好后,选择模型类型,点击选项按钮,出现如下窗口,链接(K)项选择负对数-对数类型,点击继续模型类型选好后,选择需要的统计分析,点击输出按钮,出现如下窗口,选择拟合度统计、摘要统计、参数估计和平行线检验点击继续,然后确定,得出输出结果2、输出结果分析表1:模型显著性检验Model Fitting InformationModel-2 Log Likelihood Chi-Square df Sig.Intercept Only1131.732Final 1058.922 72.810 6 .000Link function: Negative Log-log.表1为回归方程显著性检验,使用的是似然比卡方统计量,原假设为各个回归系数同时为0。
由上表可以看出统计量P值小于显著性水平,即拒绝原假设,各个回归系数不同时为0,模型有效表2:Pearson 相关系数检验Goodness-of-FitChi-Square df Sig.Pearson 1658.758 1644 .394Deviance 960.878 1644 1.000Link function: Negative Log-log.Pearson相关系数度量的是变量间的线性相关程度,由表2可看出P值大于显著性水平,即接受原假设,说明变量间相关关系不显著表3:可决系数检验Pseudo R-SquareCox and Snell .096Nagelkerke .117McFadden .058Link function: Negative Log-log.表4Parameter Estimates95% Confidence IntervalEstimateStd. Error Wald df Sig. Lower Bound Upper Bound[购买类型 = 1.00]-1.400 .438 10.206 1 .001 -2.258 -.541Threshold[购买类型 = 2.00]1.121 .437 6.573 1 .010 .264 1.978[购买类型 = 3.00]3.853 .543 50.290 1 .000 2.788 4.918年龄 -.012 .005 4.860 1 .027 -.022 -.001家庭收入 1.273E-5 2.603E-6 23.939 1 .000 7.634E-6 1.784E-5[户口状况=1.00] .244 .175 1.952 1 .162 -.098 .586[户口状况=2.00] 0a . . 0 . . .[文化程度=1.00] -1.045 .398 6.885 1 .009 -1.825 -.264[文化程度=2.00] -.788 .390 4.091 1 .043 -1.552 -.024[文化程度=3.00] -.433 .390 1.234 1 .267 -1.197 .331Location[文化程度=4.00] 0a . . 0 . . .Link function: Negative Log-log.a. This parameter is set to zero because it is redundant.由上图可知,负对数-对数公式为:]1[24.0]3[43.0 ]2[78.0]1[045.-2.0-1.)ln(1 户 口 状 况文 化 程 度 文 化 程 度文 化 程 度年 龄家 庭 收 入][.][. ][.][.-.-)l(21户 口 状 况文 化 程 度 文 化 程 度文 化 程 度年 龄家 庭 收 入]1[4.0]3[43.0 ]2[78.0]1[045.1-2.-.85)ln(21 户 口 状 况文 化 程 度 文 化 程 度文 化 程 度年 龄家 庭 收 入由上述公式可得:,则 4.1)ln(017.,则 得 2223.705.2,则 得 853.)l(31 91 2.397.020.97.4表5Test of Parallel LinesaModel-2 Log Likelihood Chi-Square df Sig.Null Hypothesis 1058.922General 1040.424 18.498 12 .101The null hypothesis states that the location parameters (slope coefficients) are the same across response categories.a. Link function: Negative Log-log.平行线检验:原假设:回归系数在被解释变量各个判别上是无显著差异的。
由上述平行线检验的结果可知,P值为0.101,大于显著性水平,即接受原假设,斜率是相等的,说明所检验的模型是可行的二、补充对数-对数类型1、利用SPSS软件分析步骤与负对数-对数模型分析步骤相似,唯一不同的是在相应的变量选好后,进行模型选择时选择的是补充对数-对数类型,即如下窗口所示,其他步骤相同,不再赘述2、输出结果分析表6Model Fitting InformationModel-2 Log Likelihood Chi-Square df Sig.Intercept Only1131.732Final 1077.490 54.242 6 .000Link function: Complementary Log-log.表6为回归方程显著性检验,使用的是似然比卡方统计量,原假设为各个回归系数同时为0由上表可以看出统计量P值小于显著性水平,即拒绝原假设,各个回归系数不同时为0,模型有效表7Goodness-of-FitChi-Square df Sig.Pearson 3583.058 1644 .000Deviance 979.445 1644 1.000Link function: Complementary Log-log.Pearson相关系数度量的是变量间的线性相关程度,由表7可看出P值小于显著性水平,即拒绝原假设,说明变量间相关关系显著。
表8Pseudo R-SquareCox and Snell .073Nagelkerke .088McFadden .043Link function: Complementary Log-log.表 9Parameter Estimates95% Confidence IntervalEstimate Std. Error Wald df Sig. Lower Bound Upper Bound[购买类型 = 1.00] -2.432 .372 42.781 1 .000 -3.161 -1.703[购买类型 = 2.00] .105 .358 .086 1 .769 -.596 .806Threshold[购买类型 = 3.00] 1.110 .361 9.458 1 .002 .403 1.818年龄 -.013 .005 7.171 1 .007 -.023 -.004Location家庭收入 1.060E-5 2.464E-6 18.499 1 .000 5.768E-6 1.543E-5[户口状况=1.00] .057 .162 .125 1 .723 -.260 .374[户口状况=2.00] 0a . . 0 . . .[文化程度=1.00] -.469 .316 2.198 1 .138 -1.089 .151[文化程度=2.00] -.342 .306 1.249 1 .264 -.942 .258[文化程度=3.00] -.135 .306 .195 1 .659 -.734 .464[文化程度=4.00] 0a . . 0 . . .Link function: Complementary Log-log.a. This parameter is set to zero because it is redundant.表10Test of Parallel LinesaModel-2 Log Likelihood Chi-Square df Sig.Null Hypothesis 1077.490General 1039.856 37.634 12 .000The null hypothesis states that the location parameters (slope coefficients) are the same across response categories.a. Link function: Complementary Log-log.平行线检验:原假设:回归系数在被解释变量各个判别上是无显著差异的。
由上述平行线检验的结果可知,P值为0.000,小于显著性水平,即拒绝原假设,斜率是不相等的,说明所检验的模型是不可行的。