第七章相关分析和线性回归分析

资源描述

《第七章相关分析和线性回归分析》由会员分享，可在线阅读，更多相关《第七章相关分析和线性回归分析（73页珍藏版）》请在金锄头文库上搜索。

1、第七章第七章相关分析和线性回归分析相关分析和线性回归分析.一、相关分析和回归分析概述一、相关分析和回归分析概述v相关分析和回归分析都是分析客观事物之相关分析和回归分析都是分析客观事物之间关系的数量分析方法。间关系的数量分析方法。v客观事物之间的关系大致可以归纳为客观事物之间的关系大致可以归纳为2 2类：类：函数关系：两事物之间一一对应的关系。函数关系：两事物之间一一对应的关系。统计关系：两事物之间的一种非一一对应的统计关系：两事物之间的一种非一一对应的关系。统计关系可再进一步分为线性相关关系。统计关系可再进一步分为线性相关和非线性相关和非线性相关正相关：两个变量线性的相随变动方向相同。正相关

2、：两个变量线性的相随变动方向相同。负相关：两个变量线性的相随变动方向相反。负相关：两个变量线性的相随变动方向相反。.v事物之间的函数关系比较容易分事物之间的函数关系比较容易分析和测度，而统计关系却不像函析和测度，而统计关系却不像函数关系那样直接，但确实普遍存数关系那样直接，但确实普遍存在，并且有的关系强，有的关系在，并且有的关系强，有的关系弱，程度各异。相关分析和回归弱，程度各异。相关分析和回归分析正是以不同的方式测度事物分析正是以不同的方式测度事物间统计关系的非常有效的工具。间统计关系的非常有效的工具。.二、相关分析二、相关分析v通过图形和数值两种方式，能够通过图形和数值两种方式，能够有效地

3、揭示事物之间统计关系的有效地揭示事物之间统计关系的强弱程度。强弱程度。v散点图：将数据以点的形式画在散点图：将数据以点的形式画在直角平面上。（直观）直角平面上。（直观）v相关系数相关系数.（二）散点图（二）散点图v含义含义v简单散点图：生成一对相关变量的散简单散点图：生成一对相关变量的散点图点图v重叠散点图：生成多对相关变量的散重叠散点图：生成多对相关变量的散点图点图v矩阵散点图：同时生成多对相关变量矩阵散点图：同时生成多对相关变量的矩阵散点图的矩阵散点图v三维散点图：生产成三个变量之间的三维散点图：生产成三个变量之间的三维散点图三维散点图.散点图的基本操作散点图的基本操作v简单散点图简单散点

4、图v重叠散点图重叠散点图v矩阵散点图矩阵散点图v三维散点图三维散点图.练习练习v高校科研研究高校科研研究.sav:.sav:v绘制课题总数与论文数的简单散点绘制课题总数与论文数的简单散点图，并分析它们之间的线性关系。图，并分析它们之间的线性关系。v绘制课题总数、投入科研经费以及绘制课题总数、投入科研经费以及论文数的矩阵散点图，并分析它们论文数的矩阵散点图，并分析它们之间的线性关系。之间的线性关系。.相关系数相关系数v虽然散点图能够直观的展现变量之间的虽然散点图能够直观的展现变量之间的统计关系，但并不精确。相关系数以数值统计关系，但并不精确。相关系数以数值的方式精确的反映了两个变量间线性相关的方

5、式精确的反映了两个变量间线性相关的强弱程度，利用相关系数进行变量间线的强弱程度，利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤。性关系的分析通常需要完成以下两大步骤。v计算样本相关系数计算样本相关系数r。（不同类型的变量。（不同类型的变量应采用不同的相关系数指标，但他们的取应采用不同的相关系数指标，但他们的取值范围和含义都是相同的。）值范围和含义都是相同的。）v对样本来自的两总体是否存在显著的线对样本来自的两总体是否存在显著的线性关系进行推断。性关系进行推断。.相关系数相关系数r rv相关系数相关系数r r的取值在的取值在-1-1+1+1之间。之间。vr0r0表示两变量存在正的线

6、性相关关系表示两变量存在正的线性相关关系;r0;r0.80.8表示两变量之间具有较强的线性表示两变量之间具有较强的线性关系关系; ; r r0.34040）v6 6、必须是连续变量、必须是连续变量.多元回归方程中的自变量选择多元回归方程中的自变量选择v1 1、强行进入法（、强行进入法（enterenter），即一般），即一般所称的复回归分析法。强迫所有变所称的复回归分析法。强迫所有变量有顺序地进入回归方程。在研究量有顺序地进入回归方程。在研究设计中，如果研究者事先建立假设，设计中，如果研究者事先建立假设，决定变量的重要性层次，则应使用决定变量的重要性层次，则应使用enterenter法比较合适

7、。此法又称法比较合适。此法又称“层次层次式进入法式进入法”（hierarchical hierarchical enterenter）。）。.v2 2、后退法（、后退法（BackwardBackward），将已纳入方程的），将已纳入方程的变量按对因变量的贡献大小由小到大依次变量按对因变量的贡献大小由小到大依次剔除，每剔除一个自变量，即重新检验每剔除，每剔除一个自变量，即重新检验每一自变量对因变量的贡献。一自变量对因变量的贡献。v3 3、前进法（、前进法（ForwardForward），对已纳入方程的），对已纳入方程的变量不考察其显著性，直到方程外变量均变量不考察其显著性，直到方程外变量均达不到

8、入选标准。达不到入选标准。v4 4、强制剔除法（、强制剔除法（RemoveRemove）与后退法相同，）与后退法相同，只是筛选的是只是筛选的是BlockBlock.v5 5、逐步回归法（、逐步回归法（ Stepwise Stepwise ），运用很广，报），运用很广，报告中出现的几率最高。结合了前进法和后退法的告中出现的几率最高。结合了前进法和后退法的优点。第一，模型中先不包含任何预测变量，与优点。第一，模型中先不包含任何预测变量，与因变量相关最高者首先进入回归方程；第二，控因变量相关最高者首先进入回归方程；第二，控制回归方程中的变量后，根据每个预测变量与因制回归方程中的变量后，根据每个预测变

9、量与因变量的偏相关的高低来决定进入方程的顺序；第变量的偏相关的高低来决定进入方程的顺序；第三，已进入方程的自变量，每引入一个自变量，三，已进入方程的自变量，每引入一个自变量，就对方程中的每一自变量进行显著性检验，若发就对方程中的每一自变量进行显著性检验，若发现不显著，就剔除；每剔除一个自变量有也对留现不显著，就剔除；每剔除一个自变量有也对留在方程中的自变量再进行显著性检验，再不显著，在方程中的自变量再进行显著性检验，再不显著，又剔除，直至没有自变量引入，也没有自变量剔又剔除，直至没有自变量引入，也没有自变量剔除为止。除为止。.v在选择回归的方法时，注意专业上在选择回归的方法时，注意专业上的要求

10、要先于统计学检验的准则。的要求要先于统计学检验的准则。vHowerHower（19871987）建议：（）建议：（1 1）应优先）应优先使用使用enterenter或或stepwisestepwise。（。（2 2）使用）使用enterenter时，可根据研究计划时的相关时，可根据研究计划时的相关理论，决定变量投入的顺序。理论，决定变量投入的顺序。.回归方程的统计检验回归方程的统计检验v通过样本数据建立回归方程后一般不通过样本数据建立回归方程后一般不能立即用于对实际问题的分析和预测，能立即用于对实际问题的分析和预测，通常要进行各种统计检验，包括回归通常要进行各种统计检验，包括回归方程的拟合优度

11、检验、回归方程的显方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、著性检验、回归系数的显著性检验、残差分析等。残差分析等。.回归方程的拟合优度检验回归方程的拟合优度检验v检验样本数据点聚集在回归线周围的密集检验样本数据点聚集在回归线周围的密集程度，从而评价回归方程对样本数据的代程度，从而评价回归方程对样本数据的代表程度。表程度。v认为认为y y各观测值的之间的差异主要由两个方各观测值的之间的差异主要由两个方面的原因造成：一是解释变量面的原因造成：一是解释变量x x取值的不同取值的不同造成的；二是由于其他随机因素造成的。造成的；二是由于其他随机因素造成的。vSST=SSA+SSE

12、SST=SSA+SSE（回归平方和剩余平方和）（回归平方和剩余平方和）v若若SSASSA所占的比例远大于所占的比例远大于SSESSE所占的比例，所占的比例，那么回归方程的拟合优度会比较高。那么回归方程的拟合优度会比较高。.v拟合优度检验采用拟合优度检验采用R R2 2统计量，该统计量统计量，该统计量称为判定系数或决定系数，它是称为判定系数或决定系数，它是SSA/SSTSSA/SSTv反映因变量的全部变异中能够通过回归反映因变量的全部变异中能够通过回归关系被自变量解释的比例，即检验回归关系被自变量解释的比例，即检验回归的效果如何。的效果如何。v如果自变量的个数很多，有时要以调整如果自变量的个数很

13、多，有时要以调整后的决定系数代替原先的决定系数。因后的决定系数代替原先的决定系数。因为增加新的自变量会使决定系数增大，为增加新的自变量会使决定系数增大，这种决定系数会有高人为控制的机制在这种决定系数会有高人为控制的机制在内，此时用调整后的决定系数更好。内，此时用调整后的决定系数更好。.回归方程的显著性检验回归方程的显著性检验v线性回归方程能够较好地反映被解释变量线性回归方程能够较好地反映被解释变量和解释变量之间统计关系的前提应是，被和解释变量之间统计关系的前提应是，被解释变量和解释变量之间确实存在显著的解释变量和解释变量之间确实存在显著的线性关系。回归方程的显著性检验正是要线性关系。回归方程的

14、显著性检验正是要检验被解释变量与所有解释变量之间的线检验被解释变量与所有解释变量之间的线性关系是否显著，用线性模型来描述它们性关系是否显著，用线性模型来描述它们之间的关系是否恰当。之间的关系是否恰当。v基本出发点与拟合优度检验非常相似。基本出发点与拟合优度检验非常相似。v检验采用检验采用F统计量。统计量。.回归系数的显著性检验回归系数的显著性检验v主要目的是研究回归方程中的每个解释主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的变量与被解释变量之间是否存在显著的线性关系，也就是研究解释变量能够有线性关系，也就是研究解释变量能够有效地解释被解释变量的线性变化，他们效地解释被解

15、释变量的线性变化，他们能够保留在线性回归方程中。能够保留在线性回归方程中。v是围绕回归系数估计值的抽样分布展开是围绕回归系数估计值的抽样分布展开的，由此构造服从某种理论分布的检验的，由此构造服从某种理论分布的检验统计量，并进行检验。统计量，并进行检验。.vt t统计量：在一元线性回归分析中，统计量：在一元线性回归分析中，回归方程显著性检验和回归系数显回归方程显著性检验和回归系数显著性检验的作用是相同的，两者可著性检验的作用是相同的，两者可以相互代替，同时回归方程显著性以相互代替，同时回归方程显著性检验中检验中F Ft t2 2。v但在多元线性回归中的这两种检验但在多元线性回归中的这两种检验通常

16、不能互相替代。通常不能互相替代。.残差分析残差分析v所谓残差是指由回归方程计算所得的预测值与所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距。实际样本值之间的差距。v残差分析是回归方程检验中的重要组成部分，残差分析是回归方程检验中的重要组成部分，其出发点是，如果回归方程能较好地反映被解其出发点是，如果回归方程能较好地反映被解释变量的特征和变化规律，那么残差序列中应释变量的特征和变化规律，那么残差序列中应不包含明显的规律行和趋势性。不包含明显的规律行和趋势性。v残差分析的主要任务可大致归纳为，分析残差残差分析的主要任务可大致归纳为，分析残差是否服从均值为是否服从均值为0 0的正态分布

17、、分析残差是否为的正态分布、分析残差是否为等方差的正态分布、分析残差序列是否独立、等方差的正态分布、分析残差序列是否独立、借助残差探测样本中的异常值等。借助残差探测样本中的异常值等。v图形分析和数值分析是残差分析的有效工具。图形分析和数值分析是残差分析的有效工具。.如何看回归结果？如何看回归结果？v哪些自变量（我们选定）进入了回哪些自变量（我们选定）进入了回归方程归方程v对回归方程进行检验，看方程是否对回归方程进行检验，看方程是否有意义有意义v看回归效果，看回归效果， R R2 2.回归分析的三个重要指标回归分析的三个重要指标v方差分析：方差分析：F F检验用于检验回归模型与检验用于检验回归模

18、型与数据的拟合程度。若数据的拟合程度。若F F值显著，表明预测值显著，表明预测变量与指标变量之间存在很强的线性关变量与指标变量之间存在很强的线性关系，也可以说回归方程显著。系，也可以说回归方程显著。 v回归系数的显著性检验：若回归系数的显著性检验：若b b显著，则显著，则表明预测变量与指标变量之间存在强线表明预测变量与指标变量之间存在强线性相关。性相关。 vR R2 2：解释回归平方和在总平方和中所占：解释回归平方和在总平方和中所占的比率，即解释回归的效果。的比率，即解释回归的效果。.练习练习v利用线性回归分析研究高等院校人利用线性回归分析研究高等院校人文社会科学研究中立项课题数是否文社会科学

19、研究中立项课题数是否受高级职称投入人年数、投入科研受高级职称投入人年数、投入科研事业经费、专著数的影响。事业经费、专著数的影响。v分析母亲对情感温暖的理解是否受分析母亲对情感温暖的理解是否受到过度干涉、拒绝否认和惩罚严厉到过度干涉、拒绝否认和惩罚严厉的影响。的影响。.虚拟变量虚拟变量v若某个自变量是分类变量，则须将分类变量若某个自变量是分类变量，则须将分类变量转化为二进制虚拟变量（转化为二进制虚拟变量（dummy variabledummy variable），），每个虚拟变量只代表每个虚拟变量只代表2 2级（级（0 0，1 1），即某一属），即某一属性出现时，虚拟变量取值为性出现时，虚拟变量

20、取值为1 1，否则为，否则为0 0。设。设虚拟变量时，以一种取值作为对比水平（基虚拟变量时，以一种取值作为对比水平（基础水平），若原自变量有几个水平，就应使础水平），若原自变量有几个水平，就应使用用n-1n-1个虚拟变量，实则虚拟变量代表的是同个虚拟变量，实则虚拟变量代表的是同一变量的不同取值。一变量的不同取值。.v如性别变量有男或女两类如性别变量有男或女两类, ,可将两个类别可将两个类别分别以两个分别以两个0/10/1二值变量的形式重新编码。二值变量的形式重新编码。设置变量设置变量X X1 1表示是否男，取表示是否男，取1 1表示男，取表示男，取0 0表示不是男。再设置变量表示不是男。再设置

21、变量X X2 2表示是否女，表示是否女，取取1 1表示是女，取表示是女，取0 0表示不是女。表示不是女。v产生的回归方程中各虚拟变量回归系数的产生的回归方程中各虚拟变量回归系数的含义是，相对参照类，各个类对解释变量含义是，相对参照类，各个类对解释变量平均贡献的差，进而可进一步研究各类别平均贡献的差，进而可进一步研究各类别间对被解释变量的平均贡献差异。间对被解释变量的平均贡献差异。.Collinearity diagnostics Collinearity diagnostics （共线性诊断）（共线性诊断）v复共线问题（共线性，复共线问题（共线性，collinearitycollinearit

22、y问问题）：由于自变量间的相关太高，造成题）：由于自变量间的相关太高，造成回归分析之情境困扰。如果自变量间有回归分析之情境困扰。如果自变量间有共线性问题，表示一个预测变量是其他共线性问题，表示一个预测变量是其他自变量的线性组合。若有严重的共线性自变量的线性组合。若有严重的共线性存在，则模型的参数就不能完全被估计存在，则模型的参数就不能完全被估计出来。出来。.自变量间是否有共线性问题，自变量间是否有共线性问题，可以由以下数据判断：可以由以下数据判断：（1 1）VIF=5VIF=5，存存在在复复共共线线。所所以以在在回回归归分分析析中中，最最好好先先做做个个相相关关分分析析，以以探探讨讨变变量量间

23、间的的相相关关情情形形，如如果果某某些些变变量量间间的的相相关关系系数数太太高高，可可考考虑虑挑挑选选一一个较重要的变量投入回归分析个较重要的变量投入回归分析。（2 2）容容忍忍度度tolerance=1-Rtolerance=1-R2 2 ，其其中中R R2 2是是此此自自变变量量与与其其他他自自变变量量间间的的多多元元相相关关系系数数的的平平方方。容容忍忍度度界界于于0 0和和1 1之之间间，如如果果一一个个自自变变量量的的容容忍忍度度太太小小，表表示示此此变变量量与与其其他他自自变变量量间间有有共共线线性性问问题题；其其值值若若接接近近0 0，表表示示此此变变量量几几乎乎就就是是其其他他

24、变变量量的的线线性性组合。组合。.（3 3）条件指针（）条件指针（condition indexcondition index，CICI），），CI CI 越大，越有共线性问题。越大，越有共线性问题。Eigenvalue condition indexEigenvalue condition index（k k）若）若k k2 2=100=100表示存在复共线，若表示存在复共线，若k k2 2=1000=1000，表示存在严重的复共线。，表示存在严重的复共线。v关于复共线问题，也有说法，即认为关于复共线问题，也有说法，即认为若若torrencetorrence降至降至0.50.5以下，而以下，

25、而VIF VIF 上升上升到到2.02.0以上，就应检查自变量是否为自以上，就应检查自变量是否为自相关。相关。.上机练习上机练习v母亲的受教育程度和职业状况与母母亲的受教育程度和职业状况与母亲的情感温暖的理解有什么关系？亲的情感温暖的理解有什么关系？请根据相关分析的进行分析。请根据相关分析的进行分析。v年均可支配收入和年人均消费支出年均可支配收入和年人均消费支出是否对教育支出有影响？请用回归是否对教育支出有影响？请用回归分析的结果建立关于教育支出的回分析的结果建立关于教育支出的回归模型。归模型。.五、路径分析五、路径分析v路径分析又称路径分析又称“结构方程模型结构方程模型”（structura

26、l equation modelsstructural equation models，SEMSEM）或）或“同时方程检验模型同时方程检验模型”（simultaneous equation simultaneous equation modelsmodels），因为它同时让所有预测），因为它同时让所有预测变量进入回归模型变量进入回归模型。.路径分析的基本步骤路径分析的基本步骤v1 1、根据相关理论与文献资料，建立一个可以检验的初、根据相关理论与文献资料，建立一个可以检验的初始模型，并绘出一个没有路径系数的路径图（始模型，并绘出一个没有路径系数的路径图（path path diagramdia

27、gram）。）。路路径径图图中中的的因因果果关关系系用用箭箭头头表表示示，箭箭头头指指向向的的是是“果果”（因因变变量量），箭箭头头起起始始处处是是“因因”（自自变变量量）。对对多多重重回回归归分分析析来来说说，箭箭头头所所指指的的变变量量为为回回归归方方程程的的因因变变量量，箭箭头头起起始始处处为为回归方程的预测变量。回归方程的预测变量。在设计因果关系时，要有相应的理论背景。因果模型结构的在设计因果关系时，要有相应的理论背景。因果模型结构的初始图中通常包括直接效果和间接效果。在直接效果中如果初始图中通常包括直接效果和间接效果。在直接效果中如果路径系数达到显著，表示两个变量间有直接因果关系存在

28、；路径系数达到显著，表示两个变量间有直接因果关系存在；在间接效果中如果路径系数达到显著，表示两个变量间有间在间接效果中如果路径系数达到显著，表示两个变量间有间接的因果关系存在。间接效果的影响路径是多元的，并不是接的因果关系存在。间接效果的影响路径是多元的，并不是每个中间变量的影响都会达到显著。每个中间变量的影响都会达到显著。.v2 2、选用适当的回归模型（通常用、选用适当的回归模型（通常用enterenter法），来估计路径系数并检验其是否显法），来估计路径系数并检验其是否显著。在路径分析中，选用的分析方法是著。在路径分析中，选用的分析方法是多重回归分析，而多重回归分析，而“路径系数路径系数”

29、就是回就是回归方程中的归方程中的“标准化偏回归系数标准化偏回归系数”。复。复回归中让所有预测变量同时进入回归方回归中让所有预测变量同时进入回归方程，再由每个变量的程，再由每个变量的t t值的大小与机率值值的大小与机率值检验检验betabeta值的影响是否显著。值的影响是否显著。.v3 3、评估理论模型，可删除不显著的路、评估理论模型，可删除不显著的路径系数，重新计算新模型的路径系数。径系数，重新计算新模型的路径系数。在删除部分影响路径后，会成为一种在删除部分影响路径后，会成为一种“约束模型约束模型”（restrict modelrestrict model），由于），由于预测变量数的改变，路径

30、系数也会跟着预测变量数的改变，路径系数也会跟着改变，因而要重新进行复回归分析。改变，因而要重新进行复回归分析。.验证研究路径图验证研究路径图数学焦虑数学焦虑数学态度数学态度数学成绩数学成绩数学投入数学投入动机动机.v此研究图，要进行三个复回归，此研究图，要进行三个复回归，（1 1）因变量为数学成绩，预测变量为数）因变量为数学成绩，预测变量为数学焦虑、数学态度、数学投入动学焦虑、数学态度、数学投入动（2 2）目标变量为数学学习态度，预测变）目标变量为数学学习态度，预测变量为数学焦虑、数学学习投入动机量为数学焦虑、数学学习投入动机（3 3）目标变量为数学学习投入动机，预）目标变量为数学学习投入动机

31、，预测变量为数学焦虑。测变量为数学焦虑。.练习练习母亲情感母亲情感温暖的理温暖的理解解过度干涉过度干涉心理健康心理健康拒绝否拒绝否认认.曲线估计曲线估计v变量间相关关系的分析中，变量之间变量间相关关系的分析中，变量之间的关系并不总是表现出线性关系的关系并不总是表现出线性关系, ,非非线性关系也是极为常见的，通过绘制线性关系也是极为常见的，通过绘制散点图的方式可粗略考察这种非线性散点图的方式可粗略考察这种非线性关系。对于非线性关系通常无法直接关系。对于非线性关系通常无法直接通过线性回归来分析，无法直接建立通过线性回归来分析，无法直接建立线性模型，线性模型，v变量之间的非线性可以划分为本质线变量之

32、间的非线性可以划分为本质线性关系和本质非线性关系。性关系和本质非线性关系。.v所谓本质线性关系是指变量关系形式上虽所谓本质线性关系是指变量关系形式上虽然是呈非线性关系（如，二次曲线），但然是呈非线性关系（如，二次曲线），但可通过变换化为线性关系，并可最终通过可通过变换化为线性关系，并可最终通过线性回归分析建立线性模型。线性回归分析建立线性模型。v本质非线性关系是指变量关系不仅形式上本质非线性关系是指变量关系不仅形式上呈非线性关系，而且也无法通过变量变换呈非线性关系，而且也无法通过变量变换化为线性关系，最终无法通过线性回归分化为线性关系，最终无法通过线性回归分析建立线性模型，曲线估计要解决的就是

33、析建立线性模型，曲线估计要解决的就是本质线性关系问题。本质线性关系问题。.步骤步骤v选择模型选择模型vSPSS自动生成参数估计，并输出自动生成参数估计，并输出回归方程显著性检验的回归方程显著性检验的F值、值、p值、值、判定系数等统计量判定系数等统计量v以判定系数为主要依据选择最优模以判定系数为主要依据选择最优模型，并进行预测分析。型，并进行预测分析。.曲线估计(Curve Estimation)v对于对于一元回归一元回归，若散点图的趋势若散点图的趋势不呈线性分布，不呈线性分布，可以利用曲线估可以利用曲线估计方便地进行线计方便地进行线性拟合性拟合(liner)(liner)、二次拟合二次拟合(Q

34、uadratic)(Quadratic)、三次拟合三次拟合(Cubic)(Cubic)等。采等。采用哪种拟合方式用哪种拟合方式主要取决于各种主要取决于各种拟合模型对数据拟合模型对数据的充分描述的充分描述( (看看修正修正Adjusted Adjusted R R2 2 -1)-1)不同模型的表示不同模型的表示模型名称模型名称回归方程回归方程相应的线性回归方程相应的线性回归方程Linear(Linear(线性线性) )Y=bY=b0 0+b+b1 1t tQuadratic(Quadratic(二次二次) )Y=bY=b0 0+b+b1 1t+bt+b2 2t t2 2Compound(Comp

35、ound(复合复合) )Y=bY=b0 0(b(b1 1t t) )Ln(Y)=ln(bLn(Y)=ln(b0 0)+ln(b)+ln(b1 1)t)tGrowth(Growth(生长生长) )Y=eY=eb0+b1tb0+b1tLn(Y)=bLn(Y)=b0 0+b+b1 1t tLogarithmic(Logarithmic(对对数数) )Y=bY=b0 0+b+b1 1ln(t)ln(t)Cubic(Cubic(三次三次) )Y=bY=b0 0+b+b1 1t+bt+b2 2t t2 2+b+b3 3t t3 3S SY=eY=eb0+b1/tb0+b1/tLn(Y)=bLn(Y)=b0

36、 0+b+b1 1 / / t tExponential(Exponential(指指数数) )Y=bY=b0 0 * * e eb1*tb1*tLn(Y)=ln(bLn(Y)=ln(b0 0)+b)+b1 1t tInverse(Inverse(逆逆) )Y=bY=b0 0+b+b1 1/t/tPower(Power(幂幂) )Y=bY=b0 0(t(tb1 b1 ) )Ln(Y)=ln(bLn(Y)=ln(b0 0)+b)+b1 1ln(t)ln(t)Logistic(Logistic(逻辑逻辑) )Y=1/(1/u+bY=1/(1/u+b0 0b b1 1t t) )Ln(1/Y-Ln(

37、1/Y-1/u)=ln(b1/u)=ln(b0 0+ln(b+ln(b1 1)t)t).操作操作v可通过绘制并观察样本数据的散点可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量图粗略确定被解释变量和解释变量之间的相关关系，为曲线拟合中的之间的相关关系，为曲线拟合中的模型选择提供依据。模型选择提供依据。.练习练习v年人均收入和教育支出年人均收入和教育支出.sav：分析：分析居民家庭教育支出和消费性支出之居民家庭教育支出和消费性支出之间的关系间的关系.二项二项Logistic回归回归v利用多元回归方法分析变量之间的关系利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是，被解

38、或进行预测时的一个基本要求是，被解释变量应是连续定距变量。如课题数、释变量应是连续定距变量。如课题数、教育支出教育支出v实际应用中这种要求未必能够得到较好实际应用中这种要求未必能够得到较好的满足。例如，要分析消费群体的特征的满足。例如，要分析消费群体的特征对小车消费的影响中，职业、性别、年对小车消费的影响中，职业、性别、年龄等并不是连续变量，不能满足回归分龄等并不是连续变量，不能满足回归分析的要求，且是个较普遍存在的问题析的要求，且是个较普遍存在的问题。.Logistic 回归回归vLogistic 回归是多元线性回归方法不断发回归是多元线性回归方法不断发展的成果。展的成果。v其将被解释变量设

39、置成其将被解释变量设置成“是是”或者或者“否否”：在在现实中，经常需要判断一些事情是否现实中，经常需要判断一些事情是否将要发生，候选人是否会当选？为什将要发生，候选人是否会当选？为什么一些人易患冠心病？为什么一些人么一些人易患冠心病？为什么一些人的生意会获得成功？此问题的特点是的生意会获得成功？此问题的特点是因变量只有两个值，不发生因变量只有两个值，不发生(0)和发生和发生(1)。这就要求建立的模型必须因变量。这就要求建立的模型必须因变量的取值范围在的取值范围在01之间。之间。.Logistic回归模型回归模型vLogistic 模型：在逻辑回归中，可以直接预测模型：在逻辑回归中，可以直接预测

40、观测变量相对于某一事件的发生概率。包含一观测变量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型个自变量的回归模型和多个自变量的回归模型公式公式：v其中：其中： z=B z=B0 0+B+B1 1X X1 1+B+Bp pX Xp p (P (P为自变量个数某一为自变量个数某一事件不发生的概率为事件不发生的概率为Prob (no event)Prob (no event)1-1-Prob(event) Prob(event) 。因此最主要的是求。因此最主要的是求B B0 0,B,B1 1,B,Bp p( (常数和系数常数和系数) ).v数据要求：因变量应具有二分特点。自

41、变量数据要求：因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。回归系数：变量。指示变量有两种编码方式。回归系数：几率和概率的区别。几率几率和概率的区别。几率=发生的概率发生的概率/不发不发生的概率。如从生的概率。如从52张桥牌中抽出一张张桥牌中抽出一张A的几的几率为率为(4/52)/(48/52)=1/12，而其概率值为，而其概率值为4/52=1/13v 根据回归系数表，可以写出回归模型公式中根据回归系数表，可以写出回归模型公式中的的Z 。然后根据回归模型公式。然后根据回归模型公式Prob (event) 进行预测。进行预测。.

展开阅读全文

第七章相关分析和线性回归分析

最新文档