概率统计基础相关与回归

举报
资源描述
第第8 8章章 相相关关与与回归回归李芳李芳凤凤 email:email:子代与父代一样吗?Galton被誉为现代回归和相关技术的创始人。1875年,Galton利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较.子代与父代一样吗?当结果被绘制出来之后,他发现并非每一个子代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的某一时期将减弱它的极端性(或者是单个个体或者是整个子代),这一趋势现在被称作“回归回归效效应应”。子代与父代一样吗?如果把父代和子代尺寸看作两个变量,找出这两个变量的关系,并根据这种关系建立适当的数学模型,就可以根据父代的数值预测子代的取值,这就是经典的回归方法要解决的问题。学完本章的内容你会对回归问题有更深入的理解.回归分析研究什么?研究某些实际问题时往往涉及到多个变量。在这些变量中,有一个变量是研究中特别关注的,称为因变量,而其他变量则看成是影响这一变量的因素,称为自变量.假定因变量与自变量之间有某种关系,并把这种关系用适当的数数学学模模型型表达出来,那么,就可以利利用用这这一一模模型型根根据据给给定定的的自自变变量量来来预预测测因因变变量量,这这就就是是回归回归要解决要解决的的问题问题.在回归分析中,只涉及一个自变量时称为一一元元回回归归;涉及多个自变量时则称为多元多元回归回归。如果因变量与自变量之间是线性关系,则称为线线性性回归回归(linear regression);如果因变量与自变量之间是非线性关系则称为非非线线性性回归回归(nonlinear regression).怎样分析变量间的关系?建立回归模型时,首先需要弄清楚变量之间的关系。分析变量之间的关系需要解决下面的问题变量之间是否存在关系?如果存在,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?变量间的关系函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称y是 x 的函数,记为 y y=f f(x x),其中 x 称为自变量,y 称为因变量.3.各观测点落在一条线上 x x x xy y y y函数关系n n某种商品的销售额y与销售量x之间的关系可表示为 y y=pxpx (p 为单价)n n圆的面积S与半径R之间的关系可表示为 S S=R R2 2 相关关系1.变量间的随机性关系,不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值对应着一个分布4.各观测点分布在直线周围 x x x xy y y y相相关关关关系系(几个例子几个例子)子女子女的的身高与其父母身高身高与其父母身高的关的关系系从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响相关关系(几个例子)农农作物作物的的单单位面位面积积产量产量与降雨与降雨量量之之间间的关的关系系在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响相关关系的描述与测度(散点图)散点图(scatter diagram)不不不不不不相相相相相相关关关关关关 负负负负负负线线线线线线性相性相性相性相性相性相关关关关关关 正正正正正正线线线线线线性相性相性相性相性相性相关关关关关关 非非非非非非线线线线线线性相性相性相性相性相性相关关关关关关 完全完全完全完全完全完全负负负负负负线线线线线线性相性相性相性相性相性相关关关关关关完全正完全正完全正完全正完全正完全正线线线线线线性相性相性相性相性相性相关关关关关关 散点图【例例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 散点图散点图(不良贷款对其他变量的散点图)相关关系的描述与测度(相关系数)相关系数(correlation coefficient)1.度量变量之间关系强度的一个统计量2.对两个变量之间线性相关强度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总总体相体相关关系系数数,记为 4.若是根据样本数据计算的,则称为样样本本相相关关系系数数,简称为相关系数,记为 r r相关系数正态总体X,Y的样本相关系数的计算公式-1.0-1.0+1.0+1.00 0-0.5-0.5+0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r r正相关程度增加正相关程度增加正相关程度增加正相关程度增加相关系数r 的取值范围是-1,1相相关关系系数数仅仅仅仅是是x x与与y y之之间间线线性性关关系系的的一一个个度度量量,它它不不能能用用于描述非于描述非线线性性关关系。系。回归模型的类型一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系q被预测或被解释的变量称为因变量(dependent variable),用y表示q用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 3.因变量与自变量之间的关系用用一个一个线线性性方程方程来来表表示示一元线性回归模型1.描述因变量y如何依赖于自变量x和误差项 的方程称为回归回归模型模型2.一元线性回归模型可表示为 y y i i =b b0 0+b b1 1 x x i i +I Iny 是 x 的线性函数(部分)加上误差项n线性部分反映了由于 x 的变化而引起的 y 的变化n0 和 1 称为模型的参参数数一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系.2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的.3.误差项 i i满足正正态态性性。即 i i N(0,2)。对于一个给定的 x 值,y 的期望值为E(y)=0+1x.方方差差齐齐性性。独立性。独立性。独立性意味着对于一个特定的 x 值,它所对应的 i i与其他 x 值所对应的 j j不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关.估计的回归方程一元线性回归中估计的回归方程为总体回归参数0和1是未知的,必须利用样本数据去估计其中:是估计的回归直线在 y 轴上的截距,是直线的斜率,它表示对于一个给定的 x 的值,是y 的估计值,也表示 x 每变动一个单位时,y 的平均变动值 最小二乘估计1.德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小KarlGaussKarlGauss的的最小化最小化图图x x x xy y y y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i最小二乘法(和 的计算公式)根据最小二乘法,可得求解 和 的公式如下练习用下表的数据拟合生产费用对产量的回归直线方程企企业编业编号号产量产量x x生产费用生产费用y y1 12 23 34 45 56 67 78 89 910101111121240404242505055556565787884841001001161161251251301301401401301301501501551551401401501501541541561561701701671671801801751751851851 6001 6001 7641 7642 5002 5003 0253 0254 2254 2256 0846 0847 0567 05610 00010 00013 45613 45615 62515 62516 90016 90019 60019 60016 90016 90022 50022 50024 02524 02519 60019 60022 50022 50023 71623 71627 22527 22528 90028 90027 88927 88932 40032 40030 62530 62534 22534 2255 2005 2006 3006 3007 7507 7507 7007 7009 7509 75012 01212 01213 86013 86017 00017 00019 37219 37222 50022 50022 75022 75025 90025 900合合计计1 0251 0251 9211 921101 835101 835310 505310 505170 094170 094将表中有关数据代入公式中:将表中有关数据代入公式中:生产费用对产量的直线回归方程为:生产费用对产量的直线回归方程为:其其中中a a124.15124.15(千克)(千克)的的含含义义为生产费为生产费用的用的起点起点值值;b b0.40270.4027表表示示产产品品产量产量每增加每增加1 1千件千件,生产费用,生产费用平均增加平均增加0.40270.4027千元。千元。用Excel进行回归分析n第第1 1步步:选择【工工具具】下拉菜单,并选择【数数据据分分析析】选项n第第2 2步步:在分析工具中选择【回回归归】,选择【确确定定】n第第2 2步步:当对话框出现时 n在【Y Y值输值输入入区域区域】设置框内键入Y的数据区域n在【X X值输值输入入区域区域】设置框内键入X的数据区域n在【置信度置信度】选项中给出所需的数值n在【输输出出选项选项】中选择输出区域n在【残差残差】分析选项中选择所需的选项回归统计Multiple R0.924394R Square0.854505Adjusted R Square0.839955标准误差6.574327观测值12方差分析dfSSMSFSignificance F回归分析1 2538.449 2538.44958.7308 1.71E-05残差10 432.2177 43.22177总计11 2970.667Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept123.3237 5.067581 24.33582 3.13E-10 112.0325134.615 112.0325134.615x0.4215760.05501 7.663602 1.71E-05 0.299006 0.544146 0.299006 0.544146回归模型的检验拟合优度变差1.因变量 y 的取值是不同的,y y 取取值值的的这这种种波波动动称称为为变变差。差。变差来源于两个方面q由于自变量 x 的取值不同造成的q除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关资源
正为您匹配相似的精品文档
相关搜索

当前位置:首页 > 高等教育 > 大学课件


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号