第四讲 stata线性回归

上传人:101****457 文档编号:90316816 上传时间:2019-06-11 格式:PPT 页数:64 大小:1.93MB
返回 下载 相关 举报
第四讲 stata线性回归_第1页
第1页 / 共64页
第四讲 stata线性回归_第2页
第2页 / 共64页
第四讲 stata线性回归_第3页
第3页 / 共64页
第四讲 stata线性回归_第4页
第4页 / 共64页
第四讲 stata线性回归_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《第四讲 stata线性回归》由会员分享,可在线阅读,更多相关《第四讲 stata线性回归(64页珍藏版)》请在金锄头文库上搜索。

1、第九章 线性回归 (Linear Regression),导论,统计分析:根据统计数据提供的资料,揭示变量之间的关系,并由此推演为事物之间内在联系的规律性,为什么学习回归分析,回归分析探讨客观事物之间的联系,表现为变量之间的统计关系 建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法 因因变量衡量方式的不同,回归分析可分为线性回归和非线性回归 线性回归适用于因变量为连续衡量的场合 非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合 即便在这两大类中,分析方法又可区分为许多不同的类型 根据处理的变量多少来看,回归分析又分为: 简单相关和

2、一元回归:研究的是两个变量之间的关系 多元相关或多元回归:研究的是多个变量之间的关系,本章主要内容,9.1变量间的相关关系(correlation) 9.2线性回归概述 9.3. 一元线性回归 9.4. 多元线性回归,9.1变量间的相关关系(correlation),1、函数关系,回归分析前,首先必须掌握变量之间是否相关;只有变量之间存在关系,才有必要进行回归分析 假若x增加时,y的取值发生相应变化,则x和y之间是相关的 假若x增加时,y的取值没有确定的变化,x则y和之间是不相关的,或是没有相关关系的 变量之间的相关关系归纳起来可以分为两种:函数关系和统计关系,2、统计相关,现实事物之间的联系

3、不像函数关系那样容易确定 现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们的关系准确地描述出来;当一个变量取一定的值时,另一个变量可能有多个取值 当一个变量的值不能由另一个变量的值唯一确定时,这种关系称为统计关系 统计关系不如函数关系直接和明确;但通过对大量数据的观察和研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同,3、相关关系的特点,双向变化关系; 一个变量的取值不能由另一个变量的取值唯一确定;当x取一定的值时,y可能有多个取值,因为还受到其他因素的影响; 不确定关系难以用函数关系来衡量和描述,但这并不表示x和y之间无规律可循; 类似定性描述 相关分为线

4、性相关和非线性相关。,4、相关分析,对两(多)个变量之间的关系进行描述,分析它们 是否相关 关系是否密切 关系的性质是什么(是正相关还是负相关) 随着x的变化,y值的变化程度就确定二者是否相关和相关的强度 当x增加(减少)时,y的取值也随之增加(减少),则x和y之间呈正相关关系;相反,当x增加(减少)时,y的取值却随之减少(增加),则和之间呈负相关关系 相关分析的方法包括散点图和相关系数,相关散点图(scatter plot),相关系数,图形虽然直观,但不够精确;对散点图的视觉分析带有很大的主观性;需要更精确和更客观的度量; 相关系数可准确地描述变量之间的线性相关程度; 线性相关系数是衡量变量

5、之间相关程度的统计量,是描述两变量线性关系强度及方向的数值; 若相关系数是根据总体数据计算的,称为总体相关系数,记为;若是根据样本计算出来的,则称为样本相关系数,记为r; 在统计学中,一般用样本相关系数来推断总体相关系数。,相关系数:性质与方向,相关系数:程度,根据经验,可以将相关程度分为几等: 但这种解释必须建立在对相关系数进行显著性检验的基础之上。,相关系数:其它特征,相关系数的计算,. correlate 变量名 :. correlate也可写为corr,是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵的基本命令; :需要生成相关关系的变量名称 如:corr age edu we

6、ight height 若要给出相关系数(每个变量的上行)及其假定检验的P指,使用命令: pwcorr 变量名,sig,9.2线性回归概述 “回归”一词来自英国学者、优生学的创始人S. F. Galton(1822-1911)。Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。,1、回归分析,通过找出代表变量之间关系的直线图形或直线方程来描述变量之间的数学关系 这条直线称为回归直线; 该直线方程称为回归方程。 一元线性回归是回归分析中最简单、最基本的回归分析,描述两个变量之间的关系。 它是根据统计资料,寻求一个

7、变量与另一个变量关系的恰当数学表达式的经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法: 其中一个变量作为DV或被解释变量,通常用y表示; 另一个变量IV(预测变量或解释变量)通常用x表示。,2、相关分析与回归分析之别,依存关系与平等关系。回归反映两个变量的依存关系,一个变量的改变引起另一个变量的变化,是一种单向的关系;其y变量称为因变量,被解释变量;在相关分析中,变量和变量处于平等地位:双向关系 关系程度与影响大小。相关分析主要是刻画两类变量间线形相关的密切程度;而回归分析不仅要揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。因此,回归是对两(多)个变量作定量描述,

8、研究变量之间的数量关系,从已知的一个变量的取值预测另一个变量的取值,得到定量结果。,3、回归分析的目的,从一组样本数据出发,确定解释变量( IV )与被解释变量(DV)之间的数学关系式;回归方程就是要找出一条最好地描述两个变量之间关系的直线方程。 对该关系式的可信程度进行各种统计检验;从影响DV的一组IV中找出哪些变量的影响是显著的,那些是不显著的。 利用直线方程(即所求的关系),根据一个或几个变量的取值来估计或预测DV的取值,并给出这种估计或预测的置信度。 预测是有规律的。如, 利用汽车的速度来预测它刹车所需要的距离 利用学生的中学成绩来预测考上大学的成功率 精确的y值是不可预测的,靠近实际

9、值。,4、回归分析的用途,用于研究一个IV对一个数值型DV在数量上的影响程度。设有两个变量,x,y,其中,y的取值随x取值的变化而变化,故y是DV,x是IV。,对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。若x以代表年龄,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系,线性回归模型:回归直线,儿童的年龄与教育之间存在很强的正向相关关系 线条就是回归直线(regression line) 如何将变量之间的相关关系用数学关系的代数表达式表达出来,线性回归的理论模型,等式(9.1)称为一元线性回归模型,描述因变量y如何依赖于自变量x和误差项e而异。在该模型中,y是x的

10、线性函数(0+1x 部分)加上误差项e。其中, 0和1是模型的未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);0+1x反映了由于x的变化而引起的y的变化,也称为边际变化(当变量x变化一个单位时,变量y改变的数量) e是被称为误差项的随机变量,代表因主观和客观原因而不可观测的随机误差,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y的线性关系所揭示的变异性。,(9.1),线性回归模型的基本假定,(1)零均值,即 。误差项是一个期望值=0 的随机变量 在自变量取一定值的条件下,其总体各误差项的条件平均值为0。这意味着,在等

11、式(9.1)中,由于0和1都是常数或系数,故有 因此,对于一个给定的x值,y的期望值为 (2)等方差,即对于所有的x值,e的方差2都相同 (3)误差项服从正态分布,且相互独立,即,(9.2),总体回归方程 (equation)(I),根据回归模型的假定,误差项的期望值为0;因此,y的期望值等于 一元总体回归方程:,(9.4),(9.3),总体回归方程(II),(预测的)回归方程,回归分析的三种检验,F检验用于检验回归方程的显著性 R2用于测度回归直线对观测数据的拟合程度;也称判定系数、可决系数(coefficient of determination) t检验用于检验自变量回归系数的显著性,r

12、eg edu age,上部分分为左右两个区域 左边是方差分析。方差部分给出回归平方和(Model)、残差平方和(Residual),总平方和(Total),自由度(df),回归和残差的均方(MS) 右边是回归统计量。包括检验统计量(F),F检验的显著水平(ProbF),R2(R-square)(判定系数),Adj R-squared(调整后的R2),观测值的个数(即样本量),估计标准误差(Root MSE) 下部分是参数估计的内容。包括回归方程截距(_cons)和斜率(Coef)的参数估计、标准误、t 统计量,P值(P|t|),置信区间(95% Conf. Interval),(1)判定系数R

13、2:概念与计算,对估计的回归方程拟合优度的度量,也就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判定回归方程对样本数据的代表程度; 该指标是建立在对总离差(deviation)平方和进行分解的基础之上。显然,各样本观测点(散点)与样本回归直线靠得越紧,SSR/SST则越大,直线拟合得越好。将该比例定义为判定系数或可决系数,记为R2,(1)判定系数R2:意义,若所有观测值都落在回归直线上,则 R2 = 1,拟合是完全的,模型具有完全解释能力;如果回归直线没有解释任何离差,则y的总离差全部归于残差平方和,即SST=SSE, R2 = 0,表示自变量x对因变量y的变异缺乏解释能力 通常观测

14、值都是部分地落在回归线上,即0 R2 1 R2 越接近1,表明回归直线的拟合优度越好;反之, R2 越接近于0,则回归直线的拟合程度就越差。 就上面的例子而言,判定系数的实际意义是,在教育水平取值的离差中,有将近86%可以由年龄与教育之间的线性关系来解释;即86%的差异是由孩子的年龄决定的孩子年龄可以解释教育差异的86%。,(2)F检验:概念,对总体回归方程的显著性检验,是对因变量与所有自变量之间的线性关系是否显著的一种假设检验; 回归分析的主要目的是,根据所建立的估计方程用自变量x来估计、预测因变量y的取值; 当我们建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得出

15、的,它是否真实地反映了变量x和y之间的关系,需要通过检验后才能证实; 该检验利用方差分析的方法进行。F统计量定义为:平均的回归平方和与平均的残差平方和(均方误差)之比。,(2)F检验:计算方法,MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度; MSE(mean square error)即残差均方,等于残差平方和除以它的自由度; 统计量F服从第一自由度为1,第二自由度为n-2的F分布。,(2)F检验步骤,利用F统计量进行回归方程显著性检验的步骤如下: (1)提出假设: H0: 1 = 0(两个变量之间的线性关系不明显) H1: 1 0 (两个变量

16、之间存在显著的线性关系) 若原假设成立,说明回归总体缺乏显著线性关系,反之表明回归总体存在显著的线性关系,即自变量x对y有显著的线性作用,解释变量总体系数不为零。 (2)计算回归方程的F统计量值 (3)根据给定的显著水平确定临界值F(1,n-2),或计算F值对应的P值 (4)做出判断。若F值大于临界值F(1,n-2)或p F = 0.0000,有充分的理由拒绝原假设,教育与孩子年龄之间的线性关系是显著的,(3)T检验定义,对回归系数显著性的检验,检验自变量对因变量的影响是否显著,也即是检验各解释变量的回归系数是否等于0; 之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与0有显著差别,它不提供回归方程中的各自变量回归系数与因变量关系的显著性; 在一元线性回归模型中,如果回归系数 1 = 0,则回归线是一条水平线,表明因变量的取值不因自变量而异,即两个变量之间没有线性关系; 如果回归系数1 0 ,也不能

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号