第2章 回归分析概述2.1 变量间的相关关系 2.2 回归方程与回归名称的由来 2.3 回归分析的主要内容及其一般模型2.4 建立实际问题回归模型的过程2.5 回归分析应用与发展述评 12.1 变量间的相关关系第2章 回归分析概述ØØ统统统统计计计计分分分分析析析析的的的的目目目目的的的的:如何根据统计数据确定变量之间的关系形态及其关联程度,并探索出其内在的数量规律性.ØØ变量之间的关系变量之间的关系变量之间的关系变量之间的关系: 确定性(函数关系)和非确定性(相关关系). 确定性确定性确定性确定性:存在某种函数关系; 相相相相关关关关关关关关系系系系:变量之间表现出某种不确定性,这种既有 关联、又不存在确定性的关系,称为相关关系.Ø现代统计学关于统计(相关)关系的研究已经形成了两个重要的分支:相关分析相关分析相关分析相关分析和回归分析回归分析回归分析回归分析22.1 变量间的相关关系第2章 回归分析概述l1.1.确定性关系确定性关系确定性关系确定性关系( (函数关系函数关系函数关系函数关系) )函函函函数数数数关关关关系系系系:能够用确定的函数关系表达式表达变量之间的关系.Ø严格的、确定的相互依存关系Ø作为影响因素的变量称为自变量自变量自变量自变量;发生对应变化的变量称为因变量因变量因变量因变量Ø可以用函数式表示 变量y与P个变量x1,x2,…,xp之间存在某种函数关系,可以表示为 y=f(x1,x2,…,xp)32.1 变量间的相关关系第2章 回归分析概述l1.1.确定性关系确定性关系确定性关系确定性关系( (函数关系函数关系函数关系函数关系) )例:例:§原材料消耗额 y 与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系 y = x1 x2 x3 §商品的销售额 y 与销售量 x 之间的关系 y = px其中其中p为销售价格.42.1 变量间的相关关系第2章 回归分析概述l2. 2. 相关关系相关关系相关关系相关关系1 1))))相相相相关关关关关关关关系系系系含含含含义义义义:是指变量之间具有密切关联,而又不能由某一个或某一些变量唯一确定另外一个变量的关系。
Ø数量关系不严格、不确定的依存关系Ø用相关与回归分析方法去分析Ø一般不能用函数式去准确表示例例例例:§子女身高 (y)与父母身高(x)之间的关系§收入水平(y)与受教育程度(x)之间的关系§商品的消费量(y)与居民收入(x)之间的关系52.1 变量间的相关关系第2章 回归分析概述2) 2) 相相相相关关关关关关关关系系系系的的的的类类类类型型型型————根根根根据据据据变变变变量量量量之之之之间间间间的的的的影影影影响响响响方方方方向向向向和和和和影影影影响响响响程程程程度,可以分为不同类型度,可以分为不同类型度,可以分为不同类型度,可以分为不同类型. .按相关的按相关的方向方向分为:分为:正相关正相关, ,负相关负相关按相关的按相关的程度程度分为:分为:Ø完全相关完全相关————变量之间的函数关系;变量之间的函数关系;Ø不相关不相关————现象之间彼此互不影响,其数量变化各自独立;现象之间彼此互不影响,其数量变化各自独立;Ø不完全相关不完全相关————界于前两者之间界于前两者之间( (一般的相关关系指的都是不完一般的相关关系指的都是不完全相关全相关) )按相关按相关形式形式分为:分为:Ø线性相关线性相关————变量之间近似表现为一条直线变量之间近似表现为一条直线Ø非线性相关非线性相关————变量之间近似表现为一条曲线变量之间近似表现为一条曲线研究研究变量的个数变量的个数分为:分为:Ø单相关单相关——两个变量的相关关系两个变量的相关关系Ø复相关复相关——一个变量对两个或两个以上变量的相关关系一个变量对两个或两个以上变量的相关关系Ø偏相关偏相关——研究多个变量之间的相关关系时,假设其他变量不变,研究多个变量之间的相关关系时,假设其他变量不变,只研究其中两个变量的相关关系只研究其中两个变量的相关关系.62.1 变量间的相关关系 变量间的关系变量间的关系变量间的关系变量间的关系变量关系变量关系确定性关系:确定性关系: 相关关系相关关系 可用确定的函数表达式表达可用确定的函数表达式表达相关方向相关方向 正相关正相关 负相关负相关 相关程度相关程度 完全相关完全相关完全不相关完全不相关 不完全相关不完全相关 相关形式相关形式 线性相关线性相关 非线性相关非线性相关 变量的个数:变量的个数: 单相关单相关/ 复相关复相关/偏相关偏相关 72.1 变量间的相关关系3.3.相关分析相关分析相关分析相关分析(Correlation Analysis) 是根据实际观察的数据资料,在具有相关关系的变量之间,对现象之间的依存关系的表现形式和密切程度的研究,它处理的是一种相互关系。
两种方法两种方法 散点图:散点图: 相关系数:相关系数: 比较直观比较直观详细的定量分析之前,对变量之间详细的定量分析之前,对变量之间存在的相关关系的方向、形式和密存在的相关关系的方向、形式和密切程度进行大致判断切程度进行大致判断定量分析定量分析 8 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 2.1 变量间的相关关系散点图散点图散点图散点图————————反映变量之间相关关系的图形反映变量之间相关关系的图形反映变量之间相关关系的图形反映变量之间相关关系的图形Ø以直角坐标系的横轴代表变量以直角坐标系的横轴代表变量X X,纵轴代表变量,纵轴代表变量Y Y,将两,将两个变量间相对应的变量值用坐标点的形式描绘出来个变量间相对应的变量值用坐标点的形式描绘出来92.1 变量间的相关关系3.3.相关分析相关分析相关分析相关分析(Correlation Analysis)相关系数相关系数((Correlation coefficient)):又称Pearson 相关系数,是根据样本数据计算的对两个变量之间线性关系强弱的度量值,用r表示. 若相关系数是根据总体全部数据计算出来的,则称为总体相关系数,记为10样本相关系数的计算公式样本相关系数的计算公式 设设(xi,yi))(i=1,2,…,n)是来自是来自总总体体(X,,Y)的)的样样本,本,则样本则样本相关系数的计算公式为相关系数的计算公式为:式中,11相关系数的意义相关系数的意义: 1. r无无单单位,位,-1≤r≤1 2. ①① 0<<r<<1表示两个表示两个变变量量间间存在存在正正线线性相关性相关关系。
关系 ②② -1<<r<<0表示两个表示两个变变量量间间存在存在负线负线性相关性相关关系 ③③ r=0表示两个表示两个变变量量间间不存在不存线性相关性相关关系 ④④ |r|=1表示两个表示两个变变量量间间存在存在完全完全线线性相关性相关关系 ⑤⑤ |r|越接近于越接近于0,表示两,表示两变变量量间线间线性相关程度越性相关程度越低低 ⑥⑥ |r|越接近于越接近于1,表示两,表示两变变量量间线间线性相关程度越性相关程度越高高12 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关- 1
2.两个两个变变量相关程度的高低取决于量相关程度的高低取决于|r|的大小,而不是的大小,而不是r数数值值的大小3.相关系数是一种相关系数是一种对对称称测测量,因此量,因此相关关系相关关系≠因果关系因果关系4.计计算相关系数要求算相关系数要求样样本容量本容量n要大要大一些一些,否否则则不易做出正不易做出正确判断;另外确判断;另外,极端极端值值也可能影响相关系数也可能影响相关系数5.相关系数相关系数只度量只度量变变量量间间的的线线性关系性关系因此,当因此,当r=0或很或很小小时时,只能,只能说说明明线线性相关关系性相关关系较较弱,并不能弱,并不能说说明明变变量之量之间间没有任何关系没有任何关系,比如可能存在非比如可能存在非线线性相关关系性相关关系注意:注意:注意:注意:14相关系数的检验相关系数的检验 由于存在抽样的随机性和样本数量较少等原因,通常由于存在抽样的随机性和样本数量较少等原因,通常导致推断的可信程度不高因此需要通过假设检验的方导致推断的可信程度不高因此需要通过假设检验的方式对式对样本来自的两个总体是否存在显著的线性相关进行样本来自的两个总体是否存在显著的线性相关进行统计推断统计推断。
相关系数检验的步骤如下:相关系数检验的步骤如下:(1)(1) 提出假设提出假设:: H0::ρ==0 H1::ρ≠0(2)(2) 构造构造检验统计检验统计量 在在H0成立成立时时,,检验统计检验统计量量t==(3)(3) 给给定定显显著性水平著性水平α,,查查表确定表确定临临界点界点(4)(4) 确定拒确定拒绝绝域:域:(5) 做做统计统计决策:若拒决策:若拒绝绝H0,,说说明两明两总总体之体之间线间线性关系性关系显显著;否著;否则则,,认为认为两两总总体之体之间线间线性关系不性关系不显显著15例例.五位同学统计学的学习时间与成绩分数见五位同学统计学的学习时间与成绩分数见下表,由此计算出学习时数与学习成绩之间的相关下表,由此计算出学习时数与学习成绩之间的相关系数并在显著程度为系数并在显著程度为0.05时,检验相关系数是否显著时,检验相关系数是否显著每周学习时数X学习成绩Y4406607501070139016每周学习时间X学习成绩YX2Y2XY440161600160660363600360750492500350107010049007001390169810011704031037020700274017提出假设提出假设:: H0::ρ==0 H1::ρ≠0拒绝拒绝H0两总体之间线性关系显著两总体之间线性关系显著182.1 变量间的相关关系第2章 回归分析概述l4 4 相关分析与回归分析相关分析与回归分析相关分析与回归分析相关分析与回归分析l l回归分析和相关分析都是研究变量间关系的统计学课题回归分析和相关分析都是研究变量间关系的统计学课题回归分析和相关分析都是研究变量间关系的统计学课题回归分析和相关分析都是研究变量间关系的统计学课题u相相关关分分析析是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。
u回回归归分分析析是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法相关分析与回归分析的相关分析与回归分析的共同点:共同点:Ø有共同的研究对象Ø具具体应用时常常必须互相补充(相关分析需要依靠回归分析来表明现象数量相关的具体形式;回归分析需要依靠相关分析来表明现象数量变化的相关程度)192.1 变量间的相关关系相关分析与回归分析的相关分析与回归分析的区别:区别:Ø相关分析中,变量x与变量y处于平等平等平等平等地位,不需要区分自变量和因变量;回归分析中,变量y称为因变量,处在被解释的特殊地位被解释的特殊地位变量x称为自变量,可以通过x的变化来解释y的变化Ø相关分析中所涉及的变量y与x全是随机变量而回归分析中,因变量y是随机变量,自变量x 可以是随机变量,也可以是非随机的确定变量(通常的回归模型中,总假定x x是非随机的固定变量是非随机的固定变量是非随机的固定变量是非随机的固定变量)Ø相关分析的研究主要是刻画两类变量间线性相关的密切线性相关的密切程度程度而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制回归方程进行预测和控制。
202.2 回归方程与回归名称的由来回归分析回归分析回归分析回归分析(Regression Analysis),是在分析变量之间相关关系的基础上,进一步考察变量之间的数量变化规律,并通过回归方程回归方程回归方程回归方程的形式加以描述和反映变量之间的关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为控制和预测提供依据 212.2 回归方程与回归名称的由来•给定x的值,y的值不能确定,只能通过一定的概率分布来描述. 于是称给定x时y的条件数学期望 为随机变量y对x的回归函数,或称y 对x均值回归函数. ——从平均意义上刻画了x,y之间的统计规律. x,y分别为自变量和因变量222.2 回归方程与回归名称的由来•由x预测y, 即用x,y的观测值, (x1,y1),…,(xn,yn)来建立模型,当给定x值后,带入模型得到y的一个值,称该值为y的预测值.•若散点图观察样本点几乎在一条直线周围,考虑用线性函数描述23•利用样本数据估计 的值2.2 回归方程与回归名称的由来24“回归”名称的由来 回归名称的由来要归功于英国统计学F.高尔顿(F.Galton:1822~1911)。
高尔顿和他的学生、现代统计学的奠基者之一K.皮尔逊(K.Pearson:1856~1936)在研究父母身高与其子女身高的遗传问题时,在观察了1078对夫妇后,以父亲身高作为x,取他们的一个成年儿子的身高为y,将结果绘成散点图后发现成一条直线计算出回归方程为25 这种趋势说明父亲身高这种趋势说明父亲身高x每增加一个单位,其成年儿每增加一个单位,其成年儿子的平均身高增加子的平均身高增加0.516个单位该结果表明:个单位该结果表明:1.高个子父亲确实有生高个子儿子的趋势高个子父亲确实有生高个子儿子的趋势2.子代人的身高有回归到同龄人平均身高的趋势子代人的身高有回归到同龄人平均身高的趋势3.此例形象的说明了生物学物种的稳定性此例形象的说明了生物学物种的稳定性26•一、一、 回归分析的主要内容回归分析的主要内容•回归分析构成计量经济学的方法论基础,其主回归分析构成计量经济学的方法论基础,其主要内容包括:要内容包括:–(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;–(2)对回归方程、参数估计值进行显著性检验;–(3)利用回归方程进行分析、评价及预测2.3 回归分析的主要内容及其一般模型27一、 回归分析的主要内容282.3 回归分析的主要内容及其一般模型二、回归模型的一般形式 如果自变量 与随机变量 之间存在相关关系,通常意味着每当取定值 后, 便有相应的概率分布与之对应。
概率模型为: 其中:随机变量 称为因变量或被解释变量, 称为解释变量或自变量 为随机误差项第2章 回归分析概述292.3 回归分析的主要内容及其一般模型随机误差项主要包括下列因素的影响随机误差项主要包括下列因素的影响:–在解释变量中被忽略的因素的影响;–变量观测值的观测误差的影响;–模型关系的设定误差的影响;–其他随机因素的影响.第2章 回归分析概述302.3 回归分析的主要内容及其一般模型回归函数是线性函数时,即回归函数是线性函数时,即回归函数是线性函数时,即回归函数是线性函数时,即第2章 回归分析概述312.3 回归分析的主要内容及其一般模型古典线性回归模型通常应满足以下几个基本假设古典线性回归模型通常应满足以下几个基本假设古典线性回归模型通常应满足以下几个基本假设古典线性回归模型通常应满足以下几个基本假设:l1.解释变量x是非随机变量,观测值x1,x2,…,xp是常数.第2章 回归分析概述322.3 回归分析的主要内容及其一般模型古典线性回归模型通常应满足以下几个基本假设古典线性回归模型通常应满足以下几个基本假设古典线性回归模型通常应满足以下几个基本假设古典线性回归模型通常应满足以下几个基本假设:l4. n>p——样本容量的个数要多于解释变量的个数.第2章 回归分析概述332.3 回归分析的主要内容及其一般模型线性回归模型是本书的重点线性回归模型是本书的重点线性回归模型是本书的重点线性回归模型是本书的重点 l1.线性回归应用最广泛;l2.只有在回归模型是线性的假设下,才能得到比较深入和一般的结果;l3.许多非线性的回归模型可以转化为线性回归问题.第2章 回归分析概述342.3 回归分析的主要内容及其一般模型线性回归模型通常要研究的问题线性回归模型通常要研究的问题线性回归模型通常要研究的问题线性回归模型通常要研究的问题: l1.如何根据样本 ,求出 及方差 的估计;l2.对回归方程及回归系数的种种假设进行检验;l3.如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析.第2章 回归分析概述35谢谢观赏!谢谢观赏!。