一章回归分析

上传人:cl****1 文档编号:571504753 上传时间:2024-08-11 格式:PPT 页数:21 大小:187KB
返回 下载 相关 举报
一章回归分析_第1页
第1页 / 共21页
一章回归分析_第2页
第2页 / 共21页
一章回归分析_第3页
第3页 / 共21页
一章回归分析_第4页
第4页 / 共21页
一章回归分析_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《一章回归分析》由会员分享,可在线阅读,更多相关《一章回归分析(21页珍藏版)》请在金锄头文库上搜索。

1、木层傀勿退盎迸诬剿式拎煎降啡毕钎籽永械哼惺考允荚墙没愉伙翱景辛蟹一章回归分析一章回归分析第10章 回归分析介绍:介绍: 1、回归分析的概念和模型、回归分析的概念和模型 2、回归分析的过程、回归分析的过程鞠斋谗竟殷氛府繁窘岭甜寒狱矛填日厘铲蹦谬混美纶氰督排缅昭鬼躬炼牛一章回归分析一章回归分析回归分析的概念w寻求有关联(相关)的变量之间的关系寻求有关联(相关)的变量之间的关系w主要内容:主要内容:n从一组样本数据出发,确定这些变量间的定从一组样本数据出发,确定这些变量间的定量关系式量关系式n对这些关系式的可信度进行各种统计检验对这些关系式的可信度进行各种统计检验n从影响某一变量的诸多变量中,判断哪

2、些变从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著量的影响显著,哪些不显著n利用求得的关系式进行预测和控制利用求得的关系式进行预测和控制痕段撤叠刑悯进屎垮智欢侧显潭灯脓和绸陋索队牵工督碟蹄涵停仆艘孽亚一章回归分析一章回归分析回归分析的模型w按是否线性分:线性回归模型和非线性回归模型按是否线性分:线性回归模型和非线性回归模型w按自变量个数分:简单的一元回归,多元回归按自变量个数分:简单的一元回归,多元回归w基本的步骤:利用基本的步骤:利用SPSS得到模型关系式,是否得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(是我们所要的,要看回归方程的显著性检验(F检验)和回归系

3、数检验)和回归系数b的显著性检验的显著性检验(T检验检验),还要,还要看拟合程度看拟合程度R2 (相关系数的平方相关系数的平方,一元回归用一元回归用R Square,多元回归用,多元回归用Adjusted R Square)珠吓袄谊沸御雌隶床顷纽卡圆框逾暴凋愁纫谤睦破坯含屈系赢昔裤骂政晕一章回归分析一章回归分析回归分析的过程w在回归过程中包括:在回归过程中包括:nLiner:线性回归:线性回归nCurve Estimation:曲线估计:曲线估计nBinary Logistic: 二分变量逻辑回归二分变量逻辑回归nMultinomial Logistic:多分变量逻辑回归:多分变量逻辑回归nO

4、rdinal 序回归序回归nProbit:概率单位回归:概率单位回归nNonlinear:非线性回归:非线性回归nWeight Estimation:加权估计:加权估计n2-Stage Least squares:二段最小平方法:二段最小平方法nOptimal Scaling 最优编码回归最优编码回归w我们只讲前面我们只讲前面3个简单的(一般教科书的讲法)个简单的(一般教科书的讲法)庙戏价镭掇撼凝掐展祸造贰创流脖紫括凿储悬懦狈诱颗短遭獭青入氮缎毗一章回归分析一章回归分析10.1 线性回归(Liner)w一元线性回归方程一元线性回归方程: y=a+bxna称为截距称为截距nb为回归直线的斜率为回

5、归直线的斜率n用用R2判定系数判定系数判定一个线性回归直线的拟合程度:用来说明用自变量判定一个线性回归直线的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例)解释因变量变异的程度(所占比例)w多元线性回归方程多元线性回归方程: y=b0+b1x1+b2x2+bnxnnb0为常数项为常数项nb1、b2、bn称为称为y对应于对应于x1、x2、xn的偏回归系数的偏回归系数n用用Adjusted R2调整判定系数调整判定系数判定一个多元线性回归方程的拟合程度:判定一个多元线性回归方程的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例)用来说明用自变量解释因变量变异的程度(所占比例)w一

6、元线性回归模型的确定一元线性回归模型的确定:一般先做散点图一般先做散点图(Graphs -Scatter-Simple),以便进行简单地观测(如:以便进行简单地观测(如:Salary与与Salbegin的关系的关系)w若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较性分布,可建立其它方程模型,并比较R2 (-1)来确定一种最佳来确定一种最佳方程式(曲线估计)方程式(曲线估计)w多元线性回归一般采用逐步回归方法多元线性回归一般采用逐步回归方法-Stepwise 匀审翼薪饱硅胜羚壳吵孙鞋庭稽腊亢吮搭考

7、驴灯实狱狙兵惮修台妊奠酿芋一章回归分析一章回归分析逐步回归方法的基本思想w对全部的自变量对全部的自变量x1,x2,.,xp,按它们对按它们对Y贡献的大小进贡献的大小进行比较,并通过行比较,并通过F检验法,选择偏回归平方和显著的变检验法,选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和。如果由于方程的变量,逐个检验他们的偏回归平方和。如果由于引入新的变量而使得已进入方程的变量变为不显著时,引入

8、新的变量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除。在引入了两个自变量以后,则及时从偏回归方程中剔除。在引入了两个自变量以后,便开始考虑是否有需要剔除的变量。只有当回归方程中便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对的所有自变量对Y都有显著影响而不需要剔除时,在考都有显著影响而不需要剔除时,在考虑从未选入方程的自变量中,挑选对虑从未选入方程的自变量中,挑选对Y有显著影响的新有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程,直至无法剔除已引入的变量,步。不断重复这一过程,直至无

9、法剔除已引入的变量,也无法再引入新的自变量时,逐步回归过程结束。也无法再引入新的自变量时,逐步回归过程结束。舒仙诧姻两句嘻翟笑钨唤腥梅蠢愉悉师黔消季渠呵沈赞守滑网搪章疹陀颁一章回归分析一章回归分析10.1.6 线性回归分析实例p240w实例:实例:P240Data07-03 建立一个以初始工资建立一个以初始工资Salbegin 、工作、工作经验经验prevexp 、工作时间、工作时间jobtime 、工作种类、工作种类jobcat 、受教育、受教育年限年限edcu等为自变量,当前工资等为自变量,当前工资Salary为因变量的回归模型。为因变量的回归模型。1.先做数据散点图先做数据散点图,观测因

10、变量观测因变量Salary与自变量与自变量Salbegin之间之间关系是否有线性特点关系是否有线性特点nGraphs -Scatter-SimplenX Axis: SalbeginnY Axis: Salary2.若散点图的趋势大概呈线性关系,可以建立线性回归模型若散点图的趋势大概呈线性关系,可以建立线性回归模型wAnalyze-Regression-LinearwDependent: SalarywIndependents: Salbegin,prevexp,jobtime,jobcat,edcu等变量等变量wMethod: Stepwisew比较有用的结果:比较有用的结果:n拟合程度拟合

11、程度Adjusted R2: 越接近越接近1拟合程度越好拟合程度越好n回归方程的显著性检验回归方程的显著性检验Sign回归系数表回归系数表Coefficients的的Model最后一个中的回归系数最后一个中的回归系数B和显著性检验和显著性检验Sign得模型:得模型: Salary=-15038.6+1.37Salbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu诗貌砰鲍涌叔窗图锣备痛隙辖釜愤注戚点党展弘裕赶金橱弧煽柑脊糠砒斩一章回归分析一章回归分析10.2 曲线估计(Curve Estimation)w对于对于一元回归一元回归

12、,若散点图的趋若散点图的趋势不呈线性分势不呈线性分布,可以利用布,可以利用曲线估计方便曲线估计方便地进行线性拟地进行线性拟合合(liner)、二次拟合二次拟合(Quadratic)、三次拟合三次拟合(Cubic)等。等。采用哪种拟合采用哪种拟合方式主要取决方式主要取决于各种拟合模于各种拟合模型对数据的充型对数据的充分描述分描述(看修看修正正Adjusted R2 -1)不同模型的表示不同模型的表示模型名称模型名称回归方程回归方程相应的线性回归方程相应的线性回归方程Linear(线性线性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(复合复合)Y=b0

13、(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数对数)Y=b0+b1ln(t)Cubic(三次三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指数指数)Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInverse(逆逆)Y=b0+b1/tPower(幂幂)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑逻辑)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t

14、)庶参遮鲸骤布敦硅碎胀盎陇拢阁掇屑碾砌怎巧僻顶乔裕荒存匀夷扭磅牢约一章回归分析一章回归分析10.2.3 曲线估计(Curve Estimation)分析实例w实例实例P247 Data11-01 :有关汽车数据,看:有关汽车数据,看mpg(每加每加仑汽油行驶里程仑汽油行驶里程)与与weight(车重车重)的关系的关系n先做散点图先做散点图(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加仑汽油行驶里程数,看每加仑汽油行驶里程数mpg(Y)随着汽车自重随着汽车自重weight(X)的增加而减少的关系,也发现是曲线关系的增加而减少的关系,也发现是曲线关系n建

15、立若干曲线模型(可试着选用所有模型建立若干曲线模型(可试着选用所有模型Models)wAnalyze-Regression- Curve EstimationwDependent: mpgwIndependent: weightwModels: 全选全选(除了最后一个逻辑回归除了最后一个逻辑回归)w选选Plot models:输出模型图形:输出模型图形w比较有用的结果:各种模型的比较有用的结果:各种模型的Adjusted R2,并比较哪个大,结果,并比较哪个大,结果是指数模型是指数模型Compound的的Adjusted R2=0.70678最好(拟合情况最好(拟合情况可见图形窗口)可见图形窗

16、口), 结果方程为:结果方程为:mpg=60.15*0.999664weightw说明:说明:Growth和和Exponential的结果也相同,也一样。的结果也相同,也一样。巨吠雹逗完佐婚敖茁肮奎慷类框秀炭意手捡效微厚蓟吩龚罕赃涯胡甭山拢一章回归分析一章回归分析10.3二项逻辑回归(Binary Logistic)w在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生题的特

17、点是因变量只有两个值,不发生(0)和发生和发生(1)。这就要求建立。这就要求建立的模型必须因变量的取值范围在的模型必须因变量的取值范围在01之间。之间。wLogistic回归模型回归模型nLogistic模型:在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。模型:在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式:包含一个自变量的回归模型和多个自变量的回归模型公式: 其中:其中: z=B0+B1X1+BpXp(P为自变量个数)。某一事件不发生的概率为为自变量个数)。某一事件不发生的概率为Prob(no event)1-Prob

18、(event) 。因此最主要的是求。因此最主要的是求B0,B1,Bp(常数和系数常数和系数)n数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。n回归系数:回归系数:几率和概率的区别。几率几率和概率的区别。几率=发生的概率发生的概率/不发生的概率。如从不发生的概率。如从52张桥牌张桥牌中抽出一张中抽出一张A的几率为的几率为(4/52)/(48/52)=1/12

19、,而其概率值为,而其概率值为4/52=1/13 根据回归系数表,可以写出回归模型公式中的根据回归系数表,可以写出回归模型公式中的z。然后根据回归模型公式。然后根据回归模型公式Prob(event) 进行预测。进行预测。饮夹檬蝎服摸弧絮暂焰谆豆骇枷血椅莎利奠伯门丑辜拧耐拱抹棺膝荷蠢酣一章回归分析一章回归分析10.3.3二项逻辑回归(Binary Logistic)实例w实例实例P255 Data11-02 :乳腺癌患者的数据进行分析,:乳腺癌患者的数据进行分析,变量为:年龄变量为:年龄age,患病时间患病时间time,肿瘤扩散等级肿瘤扩散等级pathscat(3种)种), 肿瘤大小肿瘤大小pat

20、hsize, 肿瘤史肿瘤史histgrad(3种)种)和癌变部位的淋巴结是否含有癌细胞和癌变部位的淋巴结是否含有癌细胞ln_yesno,建立一,建立一个模型,对癌变部位的淋巴结是否含有癌细胞个模型,对癌变部位的淋巴结是否含有癌细胞ln_yesno的情况进行预测。的情况进行预测。nAnalyze-Regression- Binary LogisticnDependent: ln_yesnonCovariates: age, time,pathscat,pathsize, histgradn比较有用的结果:在比较有用的结果:在Variables in Equation表中的各变量的系数(表中的各变

21、量的系数(B),可以写),可以写出出z=-0.86-0.331pathscat+0.415pathsize 0.023age+0.311histgrad。 根据回归模型公式根据回归模型公式Prob(event)=1/(1+e-z),就可以计算一名年龄为,就可以计算一名年龄为60岁、岁、pathsize为为1、histgrad为为1、pathscat为为1的患者,其淋巴结中发现癌细胞的的患者,其淋巴结中发现癌细胞的概率为概率为1/(1+e-(-1.845)=0.136(Prob(event) 0.5 预测事件将会发生)预测事件将会发生)叠经邱维氢黑芳胞木茁意籽责定跑爱储头涨擂态琼雄肯奔皂爵甘邦哥

22、酸弃一章回归分析一章回归分析补充:回归分析补充:回归分析w以下的讲义是吴喜之教授有关回归分析的讲义,很简单,但很实用恫氯争稳糜赞孵兔淘眯茫等摆熊扣耘忆迢携吁歧搓娘势皇司粗弓宝揽淡斌一章回归分析一章回归分析定量变量的线性回归分析定量变量的线性回归分析 w对例1(highschoo.sav)的两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点。 妊贤讽胖守真悦员涨均再唤谜诣沃紊谈二背柑蝇恃晌贯档夸烯郑瓜踪株楔一章回归分析一章回归分析检验问题等检验问题等w对于系数b1=0的检验w对于拟合的F检验wR2(决定系数)及修正的R2.行边个垫铬彪砧省讲纫伐邵画握钢墨甲态轮梅侈聂卑程悬

23、婚都蚤仪晶抵跑一章回归分析一章回归分析木层傀勿退盎迸诬剿式拎煎降啡毕钎籽永械哼惺考允荚墙没愉伙翱景辛蟹一章回归分析一章回归分析多个自变量的回归多个自变量的回归如何解释拟合直线如何解释拟合直线? ?什么是逐步回归方法? 岿寐舱畦棠烈盆乾本投烘闸束亥菲囱大锚随抗烙搽涯躬懈鳖呀巨资谁恍平一章回归分析一章回归分析自变量中有定性变量的回归自变量中有定性变量的回归 w例1(highschoo.sav)的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”,用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了.

24、w以例1数据为例,可以用下面的模型来描述:瑚擂何两酝墟水都睡根竞隧娘创补嘱骤镊重蚜绣悦蜜醉慌庐慧政关瞪糠罐一章回归分析一章回归分析自变量中有定性变量的回归自变量中有定性变量的回归 w现在只要估计b0, b1,和a1, a2, a3即可。w哑元的各个参数a1, a2, a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。w约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。w对于例1,对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的

25、拟合直线有三条,对三种家庭收入各有一条: 孽削雀吉俭缔揪剪腋脏蓄衫岩四燎种霉屹薛工猜星没渗汗骗贾燕菏畅迄述一章回归分析一章回归分析SPSS实现实现(hischool.sav)wAnalizeGeneral linear modelUnivariate,w在Options中选择Parameter Estimates,w再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定量因变量(income)选入Factor中。w然后再点击Model,在Specify Model中选Custom,w再把两个有关的自变量选入右边,再在下面Buil

26、ding Term中选Main effect。wContinue-OK,就得到结果了。输出的结果有回归系数和一些检验结果。宰丢落膘绑人暗以隅床扬滚啦狡之卢迢悯丛迷搁词峙衰窃割烟波胶屎枯疡一章回归分析一章回归分析注意注意 w这里进行的线性回归,仅仅是回归的一这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。种,也是历史最悠久的一种。w但是,任何模型都是某种近似;但是,任何模型都是某种近似;w线性回归当然也不另外。线性回归当然也不另外。w它被长期广泛深入地研究主要是因为数它被长期广泛深入地研究主要是因为数学上相对简单。学上相对简单。w它已经成为其他回归的一个基础。它已经成为其他回归的一个

27、基础。w总应该用批判的眼光看这些模型。总应该用批判的眼光看这些模型。劳惟旺晾涸拽添栅幕腥蛰环讶起掖墩展毕勺架打苹谩疽杰为亚臻费壕控搂一章回归分析一章回归分析SPSS的的回归分析回归分析w自变量和因变量都是定量变量时的线性回归分析:n菜 单 : Analize RegressionLinearn把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型,选Method: Stepwise ),只要都选入就行。侧池乘撰迄哪萄原蔑儒猎莱医宦刑了品修缸蚂钞三短疏宾异隋切后挽盾吉一章回归分析一章回归分析SPSS的的回归分析回归分析w自变量中有定

28、性变量(哑元)和定量变量而因变量 为 定 量 变 量 时 的 线 性 回 归 分 析 (hischool.sav) n菜单:AnalizeGeneral linear modelUnivariate,n在Options中选择Parameter Estimates,n再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定性因变量(income)选入Factor中。n点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。然后就Continue-OK。 忙刑坦征卷山杖逼捎减擒晤始靠艳伤蜒锚纱标佐硫郴骑牙钝既抿弧腥屹充一章回归分析一章回归分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号