5.7spss中的回归分析

上传人:pu****.1 文档编号:568724180 上传时间:2024-07-26 格式:PPT 页数:134 大小:2.53MB
返回 下载 相关 举报
5.7spss中的回归分析_第1页
第1页 / 共134页
5.7spss中的回归分析_第2页
第2页 / 共134页
5.7spss中的回归分析_第3页
第3页 / 共134页
5.7spss中的回归分析_第4页
第4页 / 共134页
5.7spss中的回归分析_第5页
第5页 / 共134页
点击查看更多>>
资源描述

《5.7spss中的回归分析》由会员分享,可在线阅读,更多相关《5.7spss中的回归分析(134页珍藏版)》请在金锄头文库上搜索。

1、5.7 回归分析 线性回归线性回归 曲线估计曲线估计 二分量逻辑分析二分量逻辑分析 多项式逻辑分析多项式逻辑分析 标称变量分析标称变量分析 概率回归概率回归 非线性回归非线性回归 加权估计加权估计 2 2阶段最小二乘法阶段最小二乘法5-7-1 线性回归模型总体回归模型总体回归模型j也被称为也被称为偏回归系数偏回归系数(partial regression coefficients),表示,表示在其他解释变量保持不变的情况下,在其他解释变量保持不变的情况下,Xj每变化每变化1个单位时,个单位时,Y的均值的均值E(Y)的变化。的变化。样本回归函数样本回归函数v参数估计参数估计 最小二乘法v模型统计

2、推断检验模型统计推断检验 拟合优度检验 方程显著性检验(F检验) 变量显著性检验(t检验) (1 1)拟合优度检验)拟合优度检验 回归方程的拟合优度检验就是要检验样本回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。而判断回归方程对样本数据的代表程度。 回归方程的拟合优度检验一般用调整判定系数回归方程的拟合优度检验一般用调整判定系数R2实现。该统计量的值越接近于实现。该统计量的值越接近于1越好。(越好。(注:在一元注:在一元线性回归中拟合优度的检验可用判定系数线性回归中拟合优度的检验可用判定系

3、数R2实现)实现) (2 2)回归方程的显著性检验()回归方程的显著性检验(F F检验)检验) 回归方程的显著性检验是对因变量与所有回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检自变量之间的线性关系是否显著的一种假设检验。验。 回归方程的显著性检验一般采用回归方程的显著性检验一般采用F F检验,检验,利用方差分析的方法进行。利用方差分析的方法进行。 F (3 3)回归系数的显著性检验()回归系数的显著性检验(t t检验)检验) 所谓回归系数的显著性检验,就是根据样所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行本估计的结果对总体回归系数

4、的有关假设进行检验。检验。 之所以对回归系数进行显著性检验,是因之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。验对每个回归系数进行考察。 回归参数显著性检验的基本步骤。回归参数显著性检验的基本步骤。 提出假设提出假设 计算回归系数的计算回归系数的t t统计量值统计

5、量值 根据给定的显著水平根据给定的显著水平确定临界值,确定临界值,或者计算或者计算t t值所对应的值所对应的p p值值 作出判断作出判断H0:j =0(j=1,2k)一、一元线性回归y=a+bx例5-7-1已知我国分地区家庭人均食品支出、人均收入。试作一元线性回归分析。(e5-7-1)操作步骤:使用系统默认选择项进行线性回归分析Analyze-Regression-Linear分析回归线性Dependent:存放因变量Independent:存放自变量输出结果及结果分析变量引入或剔出表:Model1引入变量income,用强迫输入法Enter。模型摘要表模型摘要表 相关系数相关系数R=0.92

6、3, 判定系数判定系数R R2 2=0.852,=0.852,调整判定系数调整判定系数R R2 2=0.847,=0.847,估计值的标准误为估计值的标准误为73.8373.83 注:在一元线性回归中可用判定系数注:在一元线性回归中可用判定系数R2来判断模型的拟合来判断模型的拟合度。调整判定系数度。调整判定系数R2的值越大,模型的拟合优度越好。的值越大,模型的拟合优度越好。方差分析表方差分析表 回归的均方回归的均方(RegressionMean Square)=878382.334,(RegressionMean Square)=878382.334,剩余剩余( (残差)残差)的均方的均方(R

7、esidual-Mean square)=5450.755, F=161.149 P=0.000.(Residual-Mean square)=5450.755, F=161.149 P=0.000.可以可以认为这两个变量之间有直线关系认为这两个变量之间有直线关系. . 注:注:H0为模型线性关系不成立为模型线性关系不成立,即即b=0变量显著性检验(变量显著性检验(t 检验)检验)回归系数:回归系数:t=12.694, p=0.00, 拒绝原假设,显著不为拒绝原假设,显著不为0常数项:常数项:t=-0.781,p=0.441,接受原假设,常数项与,接受原假设,常数项与0没有显著差异。没有显著差

8、异。注意:在实际中一般不以注意:在实际中一般不以t检验决定常数项是否保留在模型中,而是从经济意检验决定常数项是否保留在模型中,而是从经济意义方面分析回归线是否应该通过原点。义方面分析回归线是否应该通过原点。回归方程:回归方程: 常数项常数项=53.086, 回归系数回归系数=0.422, 则线性回归方程为则线性回归方程为: y=53.086+0.422x 二、多元回归分析1、从“Analyze”(分析)“Regression”(回归)“Linear”(线性),打开Linear线性回归主对话框。2、在左侧的源变量栏中选择一数值变量作为因变量进入、在左侧的源变量栏中选择一数值变量作为因变量进入De

9、pendent栏中,栏中,选择一个或更多的变量作为自变量进入选择一个或更多的变量作为自变量进入Independent(s)栏中。栏中。 3、如果要对不同的自变量采用不同的引入方法,可利用、如果要对不同的自变量采用不同的引入方法,可利用“Previous” 与与“Next” 按钮把自变量归类按钮把自变量归类到不同的自变量块到不同的自变量块( (Block)中,中,然后对不同的变量子然后对不同的变量子集选用不同的引入方法(集选用不同的引入方法(Method)。)。 EnterEnter(进入):强迫引入法,默认选择项。定义的全部自变量均引入方(进入):强迫引入法,默认选择项。定义的全部自变量均引入

10、方程。程。 RemoveRemove(移去):强迫剔除法。定义的全部自变量均删除。(移去):强迫剔除法。定义的全部自变量均删除。 ForwardForward(向前):向前引入法。自变量由少到多一个一个引入回归方程,(向前):向前引入法。自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。 BackwardBackward(向后):向后剔

11、除法。自变量由多到少一个一个从回归方程中(向后):向后剔除法。自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止,能克服向前引入法的缺点。当两个变量一剔除,直到不能按检验水准剔除为止,能克服向前引入法的缺点。当两个变量一起时效果好,单独时效果不好,该法可将两个变量都引入方程。起时效果好,单独时效果不好,该法可将两个变量都引入方程。 StepwiseStepwise(逐步):逐步引入一剔除法。将向前引入法和向后剔除法结合(逐步):逐步引入一剔除法。将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著起来,在向前引入的每一步之后都要考虑

12、从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。点同向前引入法,但选中的变量比较精悍。说明:为弥补各种选择方法和各种标准的局限性,不妨分说明:为弥补各种选择方法和各种标准的局限性,不妨分别用各种方法和多种引入或剔别用各种方法和多种引入或剔除处理同一问题,若一些变量常除处理同一问题,若一些变量常被选中,它们就值得重视。被选中,它们就值得重视。 4、 Selection variable(Selection variable(选择变量)

13、:可从源变量栏中选择变量):可从源变量栏中选择一个变量,单击选择一个变量,单击RuleRule后,通过该变量大于、小于或等于某后,通过该变量大于、小于或等于某一数值,选择进入回归分析的观察单位。一数值,选择进入回归分析的观察单位。 5、Case Labels(个案标签):在左侧的源变量框中选择(个案标签):在左侧的源变量框中选择一变量作为标签变量进入一变量作为标签变量进入 Case Labels框框中。中。6、Statistics(统计)对话框统计)对话框单击单击“Statistics”按钮,进入统计对话框如图按钮,进入统计对话框如图:Estimates(默认选择项默认选择项):回归系数的估计

14、值:回归系数的估计值(B)及其标准误及其标准误(StdError)、)、常数常数(Constant););标准化回归系数(标准化回归系数(Beta););B的的t值及其双尾显著性水平值及其双尾显著性水平(Sig.)。)。 Model fit(默认选择项):列出进入或从模型中剔除的变量;显示下列拟默认选择项):列出进入或从模型中剔除的变量;显示下列拟合优度统计量合优度统计量:复相关系数(复相关系数(R)、)、判定系数(判定系数(R2)、)、调整调整 R2(Adjusted R Square)、)、估计值的标准误以及方差分析表。估计值的标准误以及方差分析表。 Confidence interval

15、s:回归系数回归系数 B的的 95可信区间(可信区间(95Confidence interval for B)。)。 Descriptives:变量的均数、标准差、相关系数矩阵及单尾检验。变量的均数、标准差、相关系数矩阵及单尾检验。 Covariance matrix:方差方差协方差矩阵。协方差矩阵。 R sqared change:R2和和 F值的改变,以及方差分析值的改变,以及方差分析 P值的改变。值的改变。 Part and partial correlations: 显示方程中各自变量与因变量的零阶相关显示方程中各自变量与因变量的零阶相关(Zero一一order,即,即Pearson相

16、关)、偏相关相关)、偏相关(Partial)和部分相关和部分相关(part)。)。进行进行此项分析要求方程中至少有两个自变量。此项分析要求方程中至少有两个自变量。 Collinearity diagnostic(共线性诊断)。显示各变量的容差(共线性诊断)。显示各变量的容差(Tolerance)、)、方差膨胀因子方差膨胀因子(VIC,Variance Inflation Factor)和共线性的诊断表。和共线性的诊断表。 容差(容差(Tolerance)是不能由方程中其它自变量解释的方差所占是不能由方程中其它自变量解释的方差所占的构成比。所有进入方程的变量的容差必须大于默认的容差水平值的构成比

17、。所有进入方程的变量的容差必须大于默认的容差水平值(Tolerance:0.0001)。)。该值愈小,说明该自变量与其他自变量的该值愈小,说明该自变量与其他自变量的线性关系愈密切。该值的倒数为方差膨胀因子(线性关系愈密切。该值的倒数为方差膨胀因子(Variance Inflation Factor)。)。当自变量均为随机变量时,若它们之间高度相关,则称当自变量均为随机变量时,若它们之间高度相关,则称自变量间存在共线性。在自变量间存在共线性。在多元线性回归时,共线性会使参数估计不多元线性回归时,共线性会使参数估计不稳定。逐步选择变量是解决共线性的方法之一。稳定。逐步选择变量是解决共线性的方法之一

18、。 DurbinWaston:用于随机误差项的分析,以检验回归模型用于随机误差项的分析,以检验回归模型中的误差项的独立性。如果误差项不独立,那么对回归模型的任何中的误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所做出的结论都是不可靠的。估计与假设所做出的结论都是不可靠的。 计算计算DW值值 给定给定 ,由,由n和和k的大小查的大小查DW分布表,得临界值分布表,得临界值dL和和dU 比较、判断比较、判断0D.W.dL存在正自相关dLD.W.dU不能确定dUD.W.4dU无自相关4dUD.W.4dL不能确定4dLD.W.4存在负自相关说明:当说明:当D.W.值在值在2左右时,模型

19、不存在一阶自相关。左右时,模型不存在一阶自相关。Casewise diagnostic:对标准化残差:对标准化残差(服从均数服从均数=0,标准差,标准差=1的正的正态分布态分布)进行诊断。进行诊断。 判断有无奇异值(离群值)(判断有无奇异值(离群值)(outliers)。)。 Outliers:显示标准化残差超过:显示标准化残差超过n个标准差的奇异值,个标准差的奇异值,n=3为默认值。为默认值。 All Cases:显示每一例的标准化残差、实测值和预测值、:显示每一例的标准化残差、实测值和预测值、残差。残差。7、Plots(图)对话框(图)对话框 单击单击“Plots”按钮,对话框如下图所示。

20、按钮,对话框如下图所示。Plots可帮助分析可帮助分析资料的正态性、线性和方差齐性,还可帮助检测奇异值或异常值。资料的正态性、线性和方差齐性,还可帮助检测奇异值或异常值。(1)散点图:可选择如下任何两个变量为)散点图:可选择如下任何两个变量为Y(纵轴变量)与纵轴变量)与X(横轴变量)作图。为横轴变量)作图。为 获得更多的图形,可单击获得更多的图形,可单击“Next”按钮来重按钮来重复操作过程。复操作过程。 DEPENDENT:因变量。因变量。 *ZPRED:标准化预测值。标准化预测值。 *ZRESID: 标准化残差。标准化残差。 *DRESID:删除的残差。删除的残差。 *ADJPRED:调整

21、残差。调整残差。 *SRESID:Student氏残差。氏残差。 *SDRESID: Student氏删除残差。氏删除残差。 (2)Standardized Residual Plots:标准化残差图。标准化残差图。 Histogram:标准化残差的直方图,并给出正态曲线。标准化残差的直方图,并给出正态曲线。 Normal Probality Plot:标准化残差的正态概率图(标准化残差的正态概率图(PP图)。图)。 (3)Produce all Partial plots:偏残差图。偏残差图。8、Save(保存新变量)对话框单击“Save”按钮,对话框如下图所示。每项选择都会增加新变量到正在

22、使用的数据文件中。(1)预测值()预测值(Predicted Values):): Unstandardized:未标准化的预测值,简称预测值未标准化的预测值,简称预测值(新变量为新变量为pre_1)。 Standardized标准化的预测值(新变量为标准化的预测值(新变量为Zpr_1)。)。 SEOf mean prediction:预测值的标准误(新变量为预测值的标准误(新变量为 Sep_l)。)。(2)残差(残差(Residuals) Unstandardized未标准化残差(新变量为未标准化残差(新变量为res_1)。)。 Standardized:标准化残差(新变量为标准化残差(新变

23、量为Zre_1)。)。(3)预测区间估计(预测区间估计(Prediction Intervals) Mean:是总体中当是总体中当X为某定值时预测值的均数的可信区间(新变量为某定值时预测值的均数的可信区间(新变量lmci_1为为下限,下限, umci_1为上为上 限。限。 Individual:个体个体Y值的容许区间。即总体中,当值的容许区间。即总体中,当X为某定值时,个体为某定值时,个体Y值的值的波波动范围(新变量动范围(新变量lici_1为下限,为下限,uici_1为上限)。为上限)。 Confidence Intervals:可信区间。默认为可信区间。默认为 95的可信区间,但用户可以自

24、的可信区间,但用户可以自己设定。己设定。9、Options选择项对话框单击“Option”按钮,打开Options对话框,如下图。(1)逐步方法准则()逐步方法准则(Stepping Method Criteria):): Use Probability of F(使用使用 F显著水平值):当候选变量中最显著水平值):当候选变量中最大大 F值的值的 P值小于或等于引入值(默认:值小于或等于引入值(默认:005)时,引入相应的变)时,引入相应的变量;已进入方程的变量中,最小量;已进入方程的变量中,最小F值的值的P值大于或等于剔除值(默认:值大于或等于剔除值(默认:0.10)时,剔除相应的变量。所

25、设定的引入值必须小于剔)时,剔除相应的变量。所设定的引入值必须小于剔 除值,用除值,用户可设定其它标准,如引入户可设定其它标准,如引入 0.10,剔除,剔除 0.11,放宽变量进入方程的,放宽变量进入方程的标准。标准。 Use F value使用使用 F值。含义同上。值。含义同上。 Include constant in equation:线性回归方程中含有常数项。线性回归方程中含有常数项。(2)缺失值的处理方法()缺失值的处理方法(Missing Value) Exclude cases listwise:剔除所有变量中有缺失值的观测量。剔除所有变量中有缺失值的观测量。 Exclude ca

26、ses pairwise:仅剔除正在参与运算的一对变量中有仅剔除正在参与运算的一对变量中有缺失值的观测量。缺失值的观测量。 Replace with mean:以平均数代替缺失值以平均数代替缺失值.11、“ WLS”(Weight Least Squares) (1)利用加权最小平方法给于观测量不同的权重值,它或许用)利用加权最小平方法给于观测量不同的权重值,它或许用来补偿采用不同测量方式时所产生的误差。来补偿采用不同测量方式时所产生的误差。 (2)将左侧源变量框中的加权变量选入)将左侧源变量框中的加权变量选入WLS Weight框中。框中。应用举例应用举例 例例572 在例在例571中增加一

27、自变量粮食价格中增加一自变量粮食价格price,数据如下图。数据如下图。试作多元线性回归分析。试作多元线性回归分析。(e5-7-2.sav)(e5-7-2.sav) 操作步骤:操作步骤: 1、从菜单、从菜单“Analyze”“Regression”“Linear”,打开打开Linear线性回归主对话框。线性回归主对话框。 2、在左边的源变量栏中选择、在左边的源变量栏中选择foodexp作为因变量进入作为因变量进入Dependent栏中,选择栏中,选择income、price作为自变量进入作为自变量进入Independent(s)栏中。在栏中。在Method栏中选择栏中选择Stepwise(逐步

28、引入一逐步引入一剔除法)。剔除法)。 3、单击、单击“Options”按钮,进入按钮,进入Options对话框。在对话框。在Use probability of F栏中的栏中的Entry框内输入框内输入010,Remove框中输入框中输入011。 4、单击、单击“Statistics”按钮,进入按钮,进入 Statistics对话框,选择对话框,选择 Descriptives、Casewise diagnostic中的中的outliers(n3为默认值)。为默认值)。 5、单击、单击“PlotsPlots”按钮,选择以下按钮,选择以下3 3项:项: 散点图。选用散点图。选用SRESIDSRES

29、ID(Y Y纵轴变量)与纵轴变量)与* *ZPREDZPRED(X X横轴变量)作图。横轴变量)作图。 HistogramHistogram:标准化残差的直方图,并给出正态曲线。标准化残差的直方图,并给出正态曲线。 Normal Probability plotNormal Probability plot:标准化残差的正态概率图(标准化残差的正态概率图(P PP P图)。图)。 6、单击、单击“SaveSave”按钮,选择保存以下新变量:按钮,选择保存以下新变量: (1 1)预测值()预测值(Predicted ValuesPredicted Values)中的中的 Unstandardiz

30、edUnstandardized,未标准化的预测值(新变量为未标准化的预测值(新变量为 pre_lpre_l) S SE Eof mean Predictionsof mean Predictions,预测值的标准误(新变量为预测值的标准误(新变量为 sepsepl l)。)。 (2 2)残差(残差(ResidualsResiduals)中的中的 UnstandardizedUnstandardized末标准化残差(新变量为末标准化残差(新变量为res_1res_1) (3 3)预测区间估计(预测区间估计(Prediction IntervalsPrediction Intervals)中中

31、MeanMean,当自变量为某定值时,预测值的均数的可信区间(新变量当自变量为某定值时,预测值的均数的可信区间(新变量lmci_1lmci_1为为下限,下限,umci_1umci_1为上限)为上限) IndividualIndividual,个体个体Y值的容许区间,即总体中,当自变量为某定值时,个值的容许区间,即总体中,当自变量为某定值时,个体体Y值的波动范围(新变量值的波动范围(新变量lici_1lici_1为下限,为下限,uici_1uici_1为上限);为上限); ConfidenceConfidence,可信区间,默认为可信区间,默认为9595的可信区间,用户可以自己设定。的可信区间,

32、用户可以自己设定。 7 7、单击、单击“OK”按钮,运行程序,得到结果如下:按钮,运行程序,得到结果如下:描述统计量表:均值、标准差、观测量的个数相关系数表:相关系数、检验概率、观测量个数相关系数表:相关系数、检验概率、观测量个数变量引入剔除表:变量引入剔除表: Model 1中:引入自变量中:引入自变量income Model 2中:又引入中:又引入Price,没有剔除变量,所以有两个自变量。没有剔除变量,所以有两个自变量。模型摘要表模型摘要表 Model1 中:相关系数中:相关系数R=0.923, 判定系数判定系数r r2 2=0.852,=0.852,调整判调整判定系数定系数R R2 2

33、=0.847,=0.847,估计值的标准误为估计值的标准误为73.8373.83 Model2 中:相关系数中:相关系数R=0.940, 判定系数判定系数r r2 2=0.884,=0.884,调整判调整判定系数定系数R R2 2=0.876,=0.876,估计值的标准误为估计值的标准误为66.4766.47。方差分析表方差分析表 Model 2 中:中:F103.167, P=0.000, 说明因变量说明因变量foodexp与自与自变量变量income、price之间有线性关系。之间有线性关系。回归分析系数表回归分析系数表 Model 2中回归方程为:中回归方程为: foodexp=87.3

34、78+0.354income+206.538price 经经t检验,检验, 在在0.05检验水平下,回归系数检验水平下,回归系数b1、b2有显著性意义。而常数有显著性意义。而常数项的项的P0.173, 无显著性意义。无显著性意义。模型外的变量模型外的变量 Model1中方程外的变量中方程外的变量price的的t检验概率检验概率 P=0.011”按钮。按钮。 (4)Method:协变量筛选方法选项。可选择七种筛选协变量方协变量筛选方法选项。可选择七种筛选协变量方法的其中之一。法的其中之一。 Enter:所有自变量强制进入回归方程。所有自变量强制进入回归方程。 Forward:Conditiona

35、l:以假定参数为基础作似然比概率检验,以假定参数为基础作似然比概率检验,向前逐步选择自变量。向前逐步选择自变量。 Forward:LR:以最大局部似然为基础作似然比概率检验,向以最大局部似然为基础作似然比概率检验,向前逐步选择自变量。前逐步选择自变量。 Forward:Wald:作作 Wald概率统计法,向前逐步选择自变量。概率统计法,向前逐步选择自变量。 Backward:Conditional:以假定参数为基础作似然比概率检验,以假定参数为基础作似然比概率检验,向后逐步选择自变量。向后逐步选择自变量。 Backward:LR:以最大局部似然为基础作似然比概率检验,向以最大局部似然为基础作似

36、然比概率检验,向后逐步选择自变量。后逐步选择自变量。 Backward:Wald:作作 Wald概率统计法,向后逐步选择自变量。概率统计法,向后逐步选择自变量。(5)“Select Variable” : 放入将要按规则选择观察值的变量。放入将要按规则选择观察值的变量。 “ Rule”:规则按钮。激活规则按钮。激活 Set Rule对话框。设定规则:选择对话框。设定规则:选择变量等于,不等于,小于,小于或等于,大于,大于或等于某值。变量等于,不等于,小于,小于或等于,大于,大于或等于某值。(6)“ Categorical”:定义分类协变量按钮。激活定义分类协变量定义分类协变量按钮。激活定义分类

37、协变量对话框,可定义一个或多个字符型和数值型分类变量。对话框,可定义一个或多个字符型和数值型分类变量。 (7)“Save”:储存新变量按钮。激活储存新变量对话框。储存新变量按钮。激活储存新变量对话框。 (8)“ Options”:选择按钮。激活选择对话框。选择按钮。激活选择对话框。 2 2、Define Categorical VariablesDefine Categorical Variables定义分类协变量对话框。定义分类协变量对话框。 (1)Covariates(1)Covariates:协变量栏,列出源协变量。协变量栏,列出源协变量。 (2) (2) CategoricalCate

38、goricalCovariates:分类协变量栏,用于放入分类协变量。:分类协变量栏,用于放入分类协变量。(3 3)ChangeChange:改变对照方法选项。:改变对照方法选项。Contrast栏,对照方法选项。栏,对照方法选项。 Indicator:比较显示是否具有同类效应,为系统默认值。比较显示是否具有同类效应,为系统默认值。 Deviation:除参照分类外,各分类与总效应比较。除参照分类外,各分类与总效应比较。 Simple:除参照分类外,各分类与参照分类比较。除参照分类外,各分类与参照分类比较。 Difference:逆:逆Helmert对照,除第一分类外,各分类与以前平对照,除第

39、一分类外,各分类与以前平均分类效应比较。均分类效应比较。 Helmert:除最后分类外,各分类与以后平均分类效应比较。除最后分类外,各分类与以后平均分类效应比较。 Repeated:除第一分类外,各分类与以前分类效应比较。除第一分类外,各分类与以前分类效应比较。 Polynomial:假定分类等距,该分类仅用于数值型变量。假定分类等距,该分类仅用于数值型变量。 Reference CategoryReference Category:参照方法选项。:参照方法选项。 LastLast:最后的分类为参照分类,系统默认值。最后的分类为参照分类,系统默认值。 FirstFirst:第一分类为参照类第一

40、分类为参照类. .3SaveNewVariables(储存新变量)对话框(l)Predicted Values:预测值选项。:预测值选项。Probabilities:每个变量的事件发生的预测概率。:每个变量的事件发生的预测概率。Group membership:基于变量的预测概率归组。基于变量的预测概率归组。(2)Residuals:残差选项。:残差选项。Unstandardized:非标准化残差。观察值与预测值之差。非标准化残差。观察值与预测值之差。Logit:Logit单位化残差。使用单位化残差。使用Logit单位的预测模型残差。单位的预测模型残差。Studentized:学生化残差。某观

41、察值删除时学生化残差。某观察值删除时,模型偏差的改变量。模型偏差的改变量。Standardized:标准化残差。非标准化残差除以其标准差。标准化残差。非标准化残差除以其标准差。Deviance:偏差。基于模型偏差的残差。偏差。基于模型偏差的残差。(3)Influence:预测值影响量度选项。预测值影响量度选项。Cook:Cook上影响统计量。当删除某观察值时,全部观察值残上影响统计量。当删除某观察值时,全部观察值残差改变的量度。差改变的量度。Leverage values:Leverage值。每个观察值对模型拟合优度的相值。每个观察值对模型拟合优度的相对影响。对影响。Dfbeta(s):Bet

42、a的差值。当删除某观察值时,回归系数的改变量。的差值。当删除某观察值时,回归系数的改变量。 4Options选择项对话框。Statistics and Plots 统计量和图形选项。统计量和图形选项。 Classification plots:显示有关因变量观察值与预测值的分类显示有关因变量观察值与预测值的分类图。图。 Correlations of estimates:显示模型中参数估计的相关矩阵。显示模型中参数估计的相关矩阵。 HosmerLemeshow goodnessoffit:估计模型拟合优度,估计模型拟合优度,特别是在较多协变量或协变量是连续变量时。特别是在较多协变量或协变量是连

43、续变量时。 Iteration history:在参数估计过程中,显示每次迭代的系数在参数估计过程中,显示每次迭代的系数和对数似然比统计量。和对数似然比统计量。 Casewise listing of residuals:显示非标准化残差、预测概率、显示非标准化残差、预测概率、观察和预测组关系。观察和预测组关系。 Outliers outside,显示某个标准差以外的奇异值。默认值是显示某个标准差以外的奇异值。默认值是 2个标准差。个标准差。 All cases:显示所有变量的残差。显示所有变量的残差。 CI for exp(B):计算参数值:计算参数值95%的置信区间。的置信区间。Displ

44、ay:显示方法选项。显示方法选项。 At each step:显示每一步的结果。系统默认值。显示每一步的结果。系统默认值。 At last step:显示综合中间过程和最后结果。显示综合中间过程和最后结果。 Probability for stepwise:协变量引入或删除的概率标准选项协变量引入或删除的概率标准选项 Entry栏,引入协变量标准,默认值为栏,引入协变量标准,默认值为0.05。 Removal栏,删除协变量标准,系统默认值为栏,删除协变量标准,系统默认值为0.10。 Classification Cutoff: 因变量分类界限,系统默认值为因变量分类界限,系统默认值为0.5。

45、Maximum Iterations:设定最大迭代次数,系统默认值为设定最大迭代次数,系统默认值为20次。次。 Include constant in model:模型包含常数项,系统默认值模型包含常数项,系统默认值 研究问题研究问题 在一次关于某城镇居民上下班使用交通工在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量具的社会调查中,因变量y =1y =1表示居民主要乘表示居民主要乘坐公共汽车上下班;坐公共汽车上下班;y y=0=0表示主要骑自行车表示主要骑自行车上下班;自变量上下班;自变量x1x1表示被调查者的年龄;表示被调查者的年龄;x2x2表表示被调查者的月收入;示被调查者的月

46、收入;x3x3表示被调查者的性别表示被调查者的性别(x3=1x3=1为男性,为男性,x3=0x3=0为女性)。为女性)。试建立试建立y y与自变量间的与自变量间的LogisticLogistic回归回归. .三、应用举例三、应用举例使用交通工具上下班情况使用交通工具上下班情况使用交通工具上下班情况使用交通工具上下班情况序号x1(年龄)x2(月收入:元)x3(性别)y11885000221120000323850014239500152812000163185000736150001842100001946950011048120000115518000112562100011358180001

47、1418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011 实现步骤实现步骤“Logistic Regression”“Logistic Regression”对话对话对话对话框框框框 “Logistic Regression “Logistic Regression:Options”Options”对话对话对话对话框框框框 (1 1)第一部分输出结果有两个表

48、格,第)第一部分输出结果有两个表格,第一个表格说明所有个案(一个表格说明所有个案(2828个)都被选入作为个)都被选入作为回归分析的个案。回归分析的个案。 结果和讨论结果和讨论 第二个表格说明初始的因变量值(第二个表格说明初始的因变量值(0 0,1 1)已经转换为逻辑回归分析中常用的已经转换为逻辑回归分析中常用的0 0、1 1数值。数值。 (2 2)第二部分()第二部分(Block 0Block 0)输出结果有)输出结果有4 4个表格。个表格。 (3 3)Omnibus Tests of Model Omnibus Tests of Model CoefficientsCoefficients

49、表格列出了模型系数的表格列出了模型系数的Omnibus Omnibus TestsTests结果。结果。 (4 4)Model SummaryModel Summary表给出了表给出了-2 -2 对数似对数似然值、然值、CoxCox和和SnellSnell的的R2R2以及以及NagelkerkeNagelkerke的的R2R2检检验统计结果。验统计结果。 (5 5)HosmerHosmer and and LemeshowLemeshow Test Test表格以表格以及及Contingency Table for Contingency Table for HosmerHosmer and

50、and LemeshowLemeshow Test Test表格给出了表格给出了HosmerHosmer和和LemeshowLemeshow的拟合优度检验统计量。的拟合优度检验统计量。结论:结论:因变量的观测因变量的观测值与模型预测值与模型预测值不存在显著值不存在显著性差异。性差异。 (6 6)Classification TableClassification Table分类表说明分类表说明第一次迭代结果的拟合效果,从该表格可以看第一次迭代结果的拟合效果,从该表格可以看出对于出对于y=0y=0,有,有86.7%86.7%的准确性;对于的准确性;对于y=1y=1,有,有76.9%76.9%准确

51、性,因此对于所有个案总共有准确性,因此对于所有个案总共有82.1%82.1%的准确性。的准确性。 (7 7)Variables in the EquationVariables in the Equation表格列表格列出了出了Step 1Step 1中各个变量对应的系数,以及该变中各个变量对应的系数,以及该变量对应的量对应的Wald Wald 统计量值和它对应的相伴概率。统计量值和它对应的相伴概率。从该表格中可以看出从该表格中可以看出x3x3相伴概率最小,相伴概率最小,WaldWald统统计量最大,可见该变量在模型中很重要。计量最大,可见该变量在模型中很重要。 (8 8)Correlatio

52、n MatrixCorrelation Matrix表格列出了常数表格列出了常数ConstantConstant、系数之间的相关矩阵。常数与、系数之间的相关矩阵。常数与x2x2之之间的相关性最大,间的相关性最大,x1x1和和x3x3之间的相关性最小。之间的相关性最小。 (9 9)图)图7-267-26所示是观测值和预测概率分布所示是观测值和预测概率分布图。该图以图。该图以0 0和和1 1为符号,每四个符号代表一个为符号,每四个符号代表一个个案。横坐标是个案属于个案。横坐标是个案属于1 1的录属度,这里称的录属度,这里称为预测概率(为预测概率(Predicted ProbabilityPredi

53、cted Probability)。纵)。纵坐标是个案分布频数,反映个案的分布。坐标是个案分布频数,反映个案的分布。 (1010)逻辑回归的最后一个输出表格是)逻辑回归的最后一个输出表格是CasewiseCasewise List List,列出了残差大于,列出了残差大于2 2个标准差的个标准差的个案。个案。逻辑回归应用风险与保障风险与保障: 基于农村养老问题的一个实证分析基于农村养老问题的一个实证分析农业经济问题农业经济问题 (月刊月刊) 2005年第年第9期期一、数据来源与变量的描述v本文数据来自2003年7月份在全国范围内开展的“劳动与社会保障问题”问卷调查。v此次调查按照经济发展水平在

54、浙江、江苏、广东、福建、湖北、广西、河北、河南、四川、陕西、安徽11个省抽取38个行政村,每村抽取30户左右的居民进行入户问卷调查,共发放问卷1112份,收回有效问卷1106份,有效回收率99.5%。二、模型建立与结果分析二、模型建立与结果分析(一)是否担心养老问题(养老风险)(一)是否担心养老问题(养老风险)(二)养老途径(二)养老途径 1、自我养老、自我养老 2、子女养老、子女养老 3、亲戚支援、亲戚支援 4、社区养老、社区养老 5、养老保险、养老保险 6、政府救助、政府救助5.7.4非线性回归分析(一)常用非线性模型(二)应用举例例5-7-4已知变量X,Y的数据如下,试进行非线性回归分析

55、。散点图显示:两变量呈抛物线关系。作散点图“graphs-legacyDialogs-“scatter/Dot”-“Simple”为求得初始值,方法如下: 消元法,取三对观察值代入二次曲线方程:y=b0+b1*x+b2*x2214.5b0b1*300b2*3002(1)87.5=b0b1*400b2*4002(2)92.5=b0+b1*500+b2*5002(3)(2)(1)式:127b1*100b2*70000(4) (3)(1)式:122b1*200b2*160000(5)由上述方程可解得:b0,b1,b2初始值分别为1387.5,-5.89,0.0066操作步骤: 在菜单栏中选择“Ana

56、lyze”-“Regression”-“Nonlinear”。进入NonlinearRegression对话框。(1)选择因变量进入Dependent框(2)在Model Expression框中输入表达式 (3)单击“Parameter”按钮。进入参数录入对话框。 输人初始值:b01387.5,b1=-5.89,b2=0.0066。单击“Continue”按钮,返回NonlinearRegression对话框中。(5)单击“OK”按钮。结论:判定系数R2为0.83685。抛物线方程为:y=671.996-2.246*x+0.00219*x2(三)其它选项1、LossFunction:Loss

57、函数对话框。(1)Sumofsquaredresiduals:离均差平方和选项。选择此项,采用最小二乘法作参数估计,系统默认值。(2)Userdefinedlossfunction:用户自定义1oss函数项。选择此项时,允许用户自定义参数估计时的最小化标准。2.ParameterConstraints:参数限制对话框。(l)Unconstrained无参数限制选项,系统默认值。 (2)Defineparameterconstraint:参数限制选项。选择此项允许用户自定义参数范围。3.SaveNewVar:变量存储对话框。(1)Predicted:预测值选项(2)Residuals:残差选项(

58、3)Derivatives:派生值选项(4)Lossfunctionvalues:Loss函数数值选项6.Options:选择项对话框(1)Bootstrapestimatesofstandarderror:标准误的Bootstrap估计(2)EstimationMethod:估计方法选项Sequentialquadraticprogram:用连续二次方程迭代法求解方程。选择该方法后,有以下参数可供设定,均可用系统默认值。Maximum:设定最大迭代次数,设定后为优先项。Steplimit:设定参数矢量长度改变的最大允许值。Optimality:设定函数方程显著性P值的显示位数。Function:设定要求函数方程要达到的精确度。InfiniteStep:设定选代时不能收敛的标识值。Levenberg-Marquardt:为默认选项,用LevenbergMarquardt迭代法求解方程。有以下结束迭代的参数可供设定,均可用系统默认值。Maximumiterations:设定最大选代次数,设定后为优先项。Sum-of-squares:收敛结束的均方标识值,为二级项。Parameterconvergence:收敛结束的参数标识值,为三级项。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号