统计学费宇石磊第6章节回归分析

上传人:E**** 文档编号:91168685 上传时间:2019-06-26 格式:PPT 页数:114 大小:1.65MB
返回 下载 相关 举报
统计学费宇石磊第6章节回归分析_第1页
第1页 / 共114页
统计学费宇石磊第6章节回归分析_第2页
第2页 / 共114页
统计学费宇石磊第6章节回归分析_第3页
第3页 / 共114页
统计学费宇石磊第6章节回归分析_第4页
第4页 / 共114页
统计学费宇石磊第6章节回归分析_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《统计学费宇石磊第6章节回归分析》由会员分享,可在线阅读,更多相关《统计学费宇石磊第6章节回归分析(114页珍藏版)》请在金锄头文库上搜索。

1、统计学,费宇,石磊 主编 高等教育出版社,第6章 回归分析,6.1 相关分析 6.2 一元线性回归 6.3 多元线性回归 6.4 虚拟变量回归 6.5 Logistic回归 6.6 回归分析的扩展 6.7 可化为线性情形的非线性回归,【引例6.0】,(数据文件为example 6.0)某公司经理想研究公司员工的年薪问题,根据初步分析,他认为员工的当前年薪y(元)与员工的开始年薪x1(元)、在公司的工作时间x2(月)、先前的工作经验x3(月)和受教育年限x4(年)有关系,他随机抽样调查了36个员工,收集到以下数据:,问题,经理想根据以上样本数据,构建一个模型来反映y与x1、x2、x3和x4之间关

2、系,并希望利用该模型在给定一个员工的x2、x3和x4的条件下,预测该员工的当前年薪y。 此外,经理认为,公司男女员工的薪水结构不同,他想在建立模型的时候能把性别因素考虑进来,这是否可行?,6.1 相关分析,6.1.1 相关的概念 1. 人的身高与体重有相关关系。 2. 居民可支配收入与支出有相关关系。 3. 粮食产量与施肥量有相关关系。,6.1.2 相关的种类,1. 按相关程度划分: 分为完全相关、不完全相关和不相关;如图6.1所示。 2. 按相关方向划分: 分为正相关和负相关。如图6.2所示。 3. 按相关形式划分: 分为线性相关和非线性相关;如图6.3所示 。 4. 按变量多少划分: 分为

3、简单相关和复相关。,6.1.3 相关关系的度量,1. 简单线性相关系数,2. 偏相关系数,【例6.1】,6.2 一元线性回归,6.2.1 回归的含义 回归(regression)一词最早由英国生物学家兼统计学家高尔顿(F.Galton)于1886年在论文“Regression towards mediocrity in hereditary stature”中正式提出。 回归分析(regression analysis)是通过建立回归模型来研究相关变量的关系并作出相应估计和预测的一种统计方法,,6.2.2 一元线性回归,6.2.3 最小二乘估计,图6.4 x和y的散点图,【例6.2】,(数据文

4、件为example 6.2) 已知我国2007年31个地区城镇居民年人均可支配收入和年人均消费性支出数据如下表(单位:元),试分析城镇居民年人均可支配收入和年人均消费性支出之间的关系,如果有线性相关关系,试建立一元线性回归模型。,图6.5人均可支配收入x和人均消费性支出y散点图,6.2.4 回归方程的检验,1. F检验,2. t检验,3.r检验,【例6.3】,给定显著水平,对例6.2的回归方程进行检验。,6.2.5 估计与预测,图6.6 回归预测的预测区间,6.3 多元线性回归,6.3.1 多元线性回归模型,引入矩阵符号,6.3.2 多元线性回归方程的检验,2. 方程显著性检验,表6.11 多

5、元回归方程显著性检验的方差分析表,3. 回归系数显著性检验,【例6.5】,(数据文件为example 6.0) 沿用本章引例中的资料,建立多元线性回归方程并对回归方程进行检验(给定显著水平=0.05)。 解: 1. 先点散点图,用SPSS打开数据文件example 6.0,选择GraphsLegacy DialogsScatter/Dot.Simple Scatter,点Define,将两个变量开始年薪x和当前年薪y分别选入X Axis和Y Axis,点OK。,图6.7 当前年薪对开始年薪的散点图,2做多元线性回归:,选择AnalyzeRegressionLinear,将自变量开始年薪、工作时

6、间、先前工作经验和受教育年限选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为默认值Enter,点OK即可得3个主要表格 :表6.12至6.14。,表6.12 员工年薪问题的回归方程的可决系数,表6.13 员工年薪问题的方差分析表,表6.14 员工年薪问题的多元回归方程回归系数表,于是可得如下回归方程:,从回归方程可以看出:当前年薪y与开始年薪x1和受教育年限x4正相关(回归系数为正),这是合理的;但与工作时间x2和先前工作经验x3负相关(回归系数为负),这是不合理的,为什么?,3对回归方程进行检验。,6.3.3 估计与预测,1. 均值E(y0)的

7、估计,2. 个值 y0的预测,6.4 虚拟变量回归,【例6.6】,在例6.5中,将性别作为虚拟变量引入回归方程,建立当前年薪y关于受教育年限和性别虚拟变量的线性回归模型。 解: 性别x5是虚拟变量,所以这是虚拟变量回归问题;将性别变量“量化”, x5=0表示男性, x5=1表示女性,统计模型设定为,用SPSS打开数据文件example 6.0,选择AnalyzeGeneral Linear ModelUnivariate,将因变量当前年薪y选入Dependent Variable中,把定量自变量受教育年限x4选入Covariate中,把虚拟变量性别x5选入Fixed Factor中,在Opti

8、ons中选择Parameter Estimates,点击Model,在Specify Model中选Custom,再把定量自变量x4和虚拟变量x5选入右边,在Building Term中选Main effect,然后点Continue回到主对话框,在Options中的Display中选择Parameter estimates,点ContinueOK即可得参数估计值表表6.15。,表6.15 引入性别虚拟变量的线性回归模型回归系数表,由表6.15容易得如下回归方程,显然,这两条线是截距不同的两条平行线,截距的差异表示男女职工年薪的差别。,6.5 Logistic回归,本节讨论因变量是二值定性变量

9、的回归,即Logistic 回归。,【例6.7】,为了研究家庭年收入与是否有私家车的关系,随机调查了50个家庭的情况得结果如表6.16,以是否有私家车为因变量(它是一个二值定性变量),年收入为自变量建立回归方程,并估计年收入为12万元的家庭有私家车的可能性。,表6.15 抽样调查得到的50个家庭的数据资料,利用SPSS软件实现Logistic回归,具体操作如下: 打开数据文件example 6.6,选择AnalyzeRegressionBinary Logistic,将因变量y选入Dependent中,把自变量x选入Covariate中,点OK即可得参数估计表表6.17。,表6.17 Logi

10、stic回归方程回归系数表,如果要估计年收入为12万元的家庭有私家车的可能性,可以打开数据文件example 6.6,在x变量末尾增加一个值12,选择AnalyzeRegressionBinary Logistic,将因变量y选入Dependent中,把自变量x选入Covariate中,点Save在Predicted Values里选 Probabilities,返回主对话框,点OK,在原数据文件里就会得到一列预测值(PRE_1),对应于x=12的PRE值为0.18237,这就是年收入为12万元的家庭有私家车的可能性的估计值。,6.6 回归分析的扩展,6.6.1 异方差 1. 异方差的概念,异

11、方差的三种类型,(1) 单调递增型:随的增大而增大; (2) 单调递减型:随的增大而减小; (3) 复杂型:随的的变化呈复杂形式变化。,图6.8 异方差的类型,2. 异方差的修正,加权最小二乘(WLS)估计,【例6.8】,在例6.5中,求当前年薪y (元)关于开始年薪 x1(元)的线性回归方程。,解: 用SPSS打开数据文件example 6.0,做的散点图图6.7,容易看出模型存在异方差性,因此先用OLS法求的估计,选择AnalyzeRegressionLinear,将自变量开始年薪x1选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为默认值En

12、ter,点Save,在Residuals中选Unstandardized(将回归残差保存到原数据文件中),点ContinueOK即可得3个主要表格:表6.18,6.19和6.20。,表6.18 普通最小二乘回归方程的可决系数,表6.19普通最小二乘回归方程的方差分析表,表6.20普通最小二乘回归方程的回归系数表,加权最小二乘回归,选择TransformCompute,在Target Variable中输入目标变量名ei,在Numeric Expression中输入表达式ABS(RES_1)求得残差向量的绝对值ei,类似再计算残差向量的绝对值ei的倒数inei:TransformCompute,

13、在Target Variable中输入目标变量名inei,在Numeric Expression中输入表达式1/ei,回到数据窗口可见已经产生了两列新数据:残差向量的绝对值ei和它的倒数inei,最后进行加权最小二乘回归:AnalyzeRegressionLinear,将自变量开始年薪x1选入Independent,将因变量当前年薪y选入Dependent中,将权向量inei选入WLS Weight中,然后选择Method为默认值Enter,点OK即可得3个主要表格:表6.21,6.22和6.23。,表6.21加权最小二乘回归方程可决系数,表6.22加权最小二乘回归方程的方差分析表,表6.23

14、加权最小二乘回归方程的回归系数表,6.6.2 多重共线,多元回归模型(6.34)的基本假定之一是自变量是互不相关的,如果其中两个或多个自变量之间出现了相关性,则称为存在多重共线性。,【例6.5(续)】,试建立当前年薪y关于开始年薪x1,工作时间x2 ,先前工作经验x3和受教育年限x4的多元线性回归模型。,AnalyzeRegressionLinear,将自变量开始年薪x1 ,工作时间x2 ,先前工作经验x3和受教育年限x4选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为默认值Enter(全变量回归),点OK即可得表6.12,6.13和6.14。从

15、方差分析表表6.13可以看出,对应的p值,所以回归方程显著;但从回归系数表表6.14可知回归系数对应的t统计量的p值分别为0.793,0.353和0.150,都大于0.05,所以这三个回归系数都不显著,因此估计存在多重共线性。,解:1. 全变量回归,,2. 逐步回归,,AnalyzeRegressionLinear,将自变量开始年薪x1 ,工作时间x2 ,先前工作经验x3和受教育年限x4选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为Stepwise(逐步回归法),点OK即可得以下回归系数表表6.24。,表6.24逐步回归方程回归系数表,6.7

16、可化为线性情形的非线性回归,【例6.9】,(数据文件为example 6.8) 表6.25给出了1990-2002年某市人均消费性支出x和教育支出y的数据,试建立y关于x的回归模型。,表6.25人均消费性支出和人均教育支出数据,解: 1. 先点散点图,,图6.9人均消费性支出x对人均教育支出y的散点图,2. 再尝试采用二次、三次曲线、幂函数曲线和指数函数曲线拟合数据:AnalyzeRegressionCurve Estimation ,将自变量人均消费性支出x选入Independent,再将因变量人均教育支出y选入Dependent中,在Models中选Linear(线性函数,形如),Quadratic(二次曲线,形如),Cubic(三次曲线,形如),Power(幂函数,形如(6.75)式)和Compound(指数函数,形如(6.79)式),点OK可得如下拟合结果。,表6.26五种模型的模型小结和回归系数表,从表6.26可知,拟合优度最高的是指数函数和三次曲线,但从输出的方差分析表和回归系数显著性检验结果(具体表格略)来看,三

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号