《第9章SPSS20.0回归分析推荐课件》由会员分享,可在线阅读,更多相关《第9章SPSS20.0回归分析推荐课件(39页珍藏版)》请在金锄头文库上搜索。
1、第九章第九章 回归分析回归分析回归分析概述回归分析概述线性回归分析线性回归分析曲线估计曲线估计二项二项Logistic回归回归案例分析案例分析2021/8/2219.1 回归分析概述回归分析概述 回归分析是一种应用极为广泛的数量分析方回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响程准确把握变量受其他一个或多个变量影响程度,进而为预测提供科学依
2、据。度,进而为预测提供科学依据。2021/8/2229.1.1回归线和回归模型利用样本数据获得回归线通常可采用两类方法:第一,局部平均;第二,函数拟合。2021/8/2239.1.2回归分析的一般步骤1确定回归方程中的解释变量和被解释变量2确定回归模型3建立回归方程4对回归方程进行各种检验5利用回归方程进行预测2021/8/2249.2线性回归分析观察被解释变量和一个多个解释变量的散点图,当发现与的线性回归模型。在线性回归分析中,根据模型中解释变量的个数,可将线性回归模型分成一元线性回归模型和多元线性回归模型,相应的分析称为一元线性回归分析和多元线性回归分析。2021/8/2259.2.1一元
3、线性回归模型一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。现实社会经济现象中,某一事物(被解释变量)总会收到多方面因素(多个解释变量)的影响。一元线性回归分析是在不考虑其他影响因素或在是比较理想化的分析。一元线性回归数学模型是2021/8/2269.2.2多元线性回归模型多元线性回归模型是指有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归的数学模型是2021/8/2279.2.3回归参数的普通最小二乘估计线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个
4、参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为普通最小二乘估计。2021/8/2289.2.4回归方程的统计检验通过样本数据建立回归方程后一半不能立即用于对实际问题的分析和预测,通常要进行各种统计检验,主要包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析等。2021/8/2299.2.4.1回归方程的拟合优度检验对于一元线性回归方程一元线性回归方程的拟合优度检验采用统计量。该统计量称为判定系数或决定系数,数学定义为:2021/8/2210对于多元线性回归方程多元线性回归方程的拟合优度检验采用统计量。该统计量称为调整的
5、判定系数或调整的决定系数,数学定义为2021/8/22119.2.4.2回归方程的显著性检验对于一元线性回归方程检验采用统计量,其数学定义为2021/8/2212对于多元线性回归方程检验采用统计量,其数学定义为2021/8/22139.2.4.3回归系数的显著性检验回归系数的显著性检验的主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著性的线性关系,也就是研究解释变量能否有效地解释被解释变量的线性变化,它们能否保留在线性回归方程中。回归系数显著性检验是围绕回归系数(或偏回归系数)估计值得抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。2021/8/2214对于
6、一元线性回归方程一元线性回归方程的回归系数显著性检验的零假设是,即回归系数与零无显著差异。它意味着,当回归系数为0时,无论取值如何变化都不会引起的线性变化,无法解释的线性变化,它们之间不存在线性关系。2021/8/2215对于多元线性回归方程多元线性回归方程显著性检验的零假设是:,即第个偏回归系数与零无显著差异。它意味着当偏回归系数为=0时,无论取值如何变化都不会引起的线性变化,所有无法解释的线性变化,它们不存在线性关系。2021/8/22169.2.4.4残差分析 所谓的残差是指由回归方程计算所得的预测值与实际样本值之间的差距,定义为1.残差均值为0的正态分布分析当前面的讨论中知道,当解释变
7、量取某个特定的值时,对应的残差必然有正有负,但总体上应服从以0为均值的正态分布。可以通过绘制残差图对该问题进行分析。残差图也是一直散点图。图中一般横坐标是解释变量(也可以是被解释变量的预测值),纵坐标为残差。2021/8/22172.残差的独立性分析残差独立性分析可以通过以下三种方式实现:一、绘制残差序列的序列图二、计算残差的自相关系数三、DurbinWatson检验2021/8/22183.异方差分析一、绘制残差图可以通过绘制残差图分析是否存在异方差。二、等级相关分析得到残差序列后首先对其取绝对值,然后分别计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。2
8、021/8/22199.2.5多元回归分析中的其他问题在多元回归分析中,由于解释变量会受众多因素的共同影响,需要由多个解释变量解释的,于是会出现诸如此类的问题:多个变量是否都能够进入线性回归模型,解释变量应以怎样的策略和顺序进行方程,方程中多个解释变量之间是否存在多重共线性等。2021/8/22209.2.5.1变量筛选问题在多元线性回归分析中,模型中应引入多少解释变量是需要重点研究的。如果引入的变量较少,回归方程将无法很好地解释说明被解释变量的变化。但是也并非引入的变量越多越好,因为这些变量之间可能存在多重共线性。因此有必要采取一些策略对变量引入回归方程加以控制和筛选。多元回归分析中,变量的
9、筛选一般有向前筛选、向后筛选、逐步筛选三种基本策略。2021/8/2221向前筛选(Forward)处理向后筛选(Backward)处理逐步筛选(Stepwise)策略2021/8/22229.2.5.2变量的多重共线性问题所谓多重共线性是指解释变量之间存在线性相关关系的现象。解释变量间高度的多重共线性会给回归方程带来许多影响。如偏回归系数估计困难,偏回归系数的估计方差随解释变量相关性的增大而增大,偏回归系数的置信区间增大,偏回归系数估计值的不稳定性增强,偏回归系数假设检验的结果不显著等。测度解释变量间多重共线性一般有以下方式:2021/8/2223容忍度方差膨胀因子(VIF)特征根和方差比条
10、件指数2021/8/22249.4曲线估计9.4.1 曲线估计概述曲线估计概述变量间相关关系的分析中,变量之间的关系并不总表现出线性关系,非线性关系也是极为常见的,可通过绘制散点图的方式粗略考察这种非线性关系。对于非线性关系通常无法直接通过线性回归来分析,无法直接建立线性模型,但可通过变量变换化为线性关系,并可最终进行线性回归分析建立线性模型2021/8/22259.5二项Logistic回归二次曲线(Quadratic)复合曲线(Compound)增长曲线(Growth)对数曲线(Logarithmic)三次曲线(Cubic)S曲线2021/8/2226指数曲线(Exponential)逆函
11、数(Inverse)幂函数(Power)逻辑函数(Logistic)2021/8/22279.5.1二项Logistic回归概述9.5.1.1二项Logistic回归应用背景作为标准的统计分析工具,多元回归分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用。尽管如此,在运用多元回归分析方法时仍不应忽略方法应用的前提假设条件。违背了某些关键假设,得到的分析结论很可能是不合理和不可信的。2021/8/22289.5.1.2二项Logistic回归模型当被解释变量为0/1二值变量时,虽然无法直接采用一般线性多元回归模型建模,但仍然可以充分利用其模型建立的理论和思路,得到以下启示:第一,可以证明
12、,当被解释变量为0/1二值变量时,如果仍采用简单线性回归模型,即,则被解释变量的均值是解释变量为时=1的概率值。由此给出的启示是,可以利用一般的线性多元回归模型对被解释变量取值为1的概率P进行建模,此时模型被解释变量的取值范围是01之间,即2021/8/2229第二,由于概率P的取值范围是01之间,而一般线性回归模型被解释变量取值于的要求给出的启示是,可以对概率P作合理转换处理,其取值范围与一般线性回归吻合。第三,采用一般线性模型建立关于被解释变量取值为1时的概率的回归模型时,模型中解释变量与概率值之间的关系是线性的。但实际应用中,这个概率与解释变量之间往往是一种非线性关系。由此,对概率P的转
13、换处理应采用非线性转化。2021/8/22309.5.1.3二项Logistic回归方程回归系数的含义由于Logistic回归模型的残差不再服从正态分布,而是二值离散型分布,于是采用极大似然估计法对模型的参数进行估计。在各种统计检验通过以后,需要对模型参数的含义给予合理的解释。2021/8/22319.5.1.4二项Logistic回归方程的检验为进行Logistic回归方程的检验应需要首先了解回归方程参数估计的原则和方法。Logistic回归方程的参数求解采用极大似然估计法。极大似然估计是一种在总体分布密度函数和样本信息的基础上,求解模型中未知参数估计值的方法。它基于总体的分布密度函数构造一
14、个包含未知参数的似然函数,并求解在似然函数值最大下的未知参数的估计值。2021/8/22321.回归方程的显著性检验2.回归系数的显著性检验3.回归方程的拟合优度检验(1)统计量(2)统计量(3)错判矩阵2021/8/22339.5.1.5二项Logistic回归分析中的虚拟变量通常回归分析中,作为解释变量的变量都是定距型变量,他们对被解释变量有线性解释作用。实际应用中,被解释变量的变化不仅受到定距型变量的影响,也会为非定距的品质变量的影响。品质型数据通常不能像定距变量那样直接作为解释变量进入回归方程。2021/8/22349.6案例分析一线性回归数据来自于国泰安数据服务中心的经济研究数据库。网址:http:/