相关与回归分析(121)

上传人:san****019 文档编号:83593403 上传时间:2019-02-28 格式:PPT 页数:82 大小:750.50KB
返回 下载 相关 举报
相关与回归分析(121)_第1页
第1页 / 共82页
相关与回归分析(121)_第2页
第2页 / 共82页
相关与回归分析(121)_第3页
第3页 / 共82页
相关与回归分析(121)_第4页
第4页 / 共82页
相关与回归分析(121)_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《相关与回归分析(121)》由会员分享,可在线阅读,更多相关《相关与回归分析(121)(82页珍藏版)》请在金锄头文库上搜索。

1、第8章 相关分析与回归分析,第一节 相关分析,第二节 回归分析,第三节 应用实例,第四节 统计预测,第一节 相关分析,一、相关分析概述,二、相关分析的主要内容,三、相关关系的测定,一、相关分析概述,确定性的函数关系:指现象之间是一种严格的依存关系,当自变量确定时,因变量(另一个与之有联系的现象)按照一定的规律,总有唯一确定的值与之对应。,随机性的相关关系:是指客观现象之间确实存在,但数量上不是严格对应的依存关系。在这种关系中,对于一个或若干个现象的每一个确定值,另一有联系的现象并不是只有唯一确定的值与之对应,而是有不同的值与之对应。,例如: 圆的面积S和它的半径r之间,始终有:S=r2。 自由

2、落体运动的位移S与时间t之间,始终有:S=1/2gt2,例如: 商品的需求量Q与价格P之间就不存在精确的关系,因为,Q不仅仅只受到价格因素的影响。 人的体重W与身高H之间也不存在精确的关系,因为W还取决于胖瘦程度及肌肉密度等因素的影响。,(一)相关的概念,相关关系的特点,相关关系不能用函数形式予以描述,但也不是无任何规律可循。,一个变量的取值不能由另一个变量惟一确定。 当变量x取某个值时,变量y的值可能有几个。,区别: 函数关系中的变量之间的关系是完全确定的,而相关关系中的变量之间的关系是不完全确定的。 函数关系可以用数学表达式精确表示出来,而相关关系只能通过研究变量间的统计规律才能得到。,联

3、系: 由于存在着测量误差等因素的影响,函数关系在实践中往往通过相关关系表现出来;在研究相关关系时,常常通过确定性的函数关系部分来研究变量之间的依赖关系。,相关关系与函数关系的联系与区别,(二)相关关系的种类,根据变量之间的依存关系分 单向依存关系 互为因果关系 根据影响因素多少分 单相关:两个变量间相关 复相关(多重相关和偏相关) 根据相关关系的方向分 正相关 负相关 根据相关密切程度分 完全相关 不完全相关 不相关,图3 不相关,返回,二、相关分析的主要内容,确定现象之间有无关系及相关关系的表现形式 确定相关关系的方向 确定相关关系的密切程度,返回,(一)相关关系的判定 定性认识 受判断者的

4、经验、学识、能力等因素的影响 相关表和相关图,三、直线相关的测定,相关表 是一种统计表,它是直接根据现象之间的原始资料,将一变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对应排列形成的统计表。,某车间20名工人的工龄长度与日产量之间相关表,表中数据直观显示 (1)日产量y随着工龄长度x的增加而增加,但不成比例。 (2)对于同一个x来说,y值并非唯一确定。,表7-1 某地能源消耗量与工业总产值的相关表,相关图 又称散点图,它是用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,图7-1 能源消耗与工业总产值的

5、相关图,两个变量是对等关系 两个变量间只有一个相关系数 相关系数有正、负之分 相关分析的两个变量都是随机变量,(二)直线相关的特点,协方差(covariance):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,总体协方差:,样本协方差:,COV xy,(三)相关系数的测定,对协方差的理解,协方差为大的正值时,表示强的正线性相关关系。,对协方差的理解,协方差接近于零时,表示很小或没有线性相关关系。,对协方差的理解,协方差为大的负值时,表示强的负线性相关关系。,协方差为大的正值时,表示强的正线性相关关系。,协方差接近于零时,表示很小或没有线性相关关系。,协方差为大的负值时,表示强的负线

6、性相关关系。,对协方差的理解,似乎是这样,cm,kg,mm,kg,大于,基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。,相关系数(correlation coefficient):度量变量间相关关系的一类指标的统称。就参数统计而言,常用的是皮尔逊积矩相关系数(Pearson):即协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。,总体相关系数,样本相关系数,(三)相关系数的测定(积差法),可化简为:,从公式中可以看出:,r取正值或负值决定于分子,或可以划简得其简化公式为:,特点 r的取值范围是1,1 r的取值为正数或负数,表示两变量是正相关或负相关 | r |=1,即

7、取1或1时,表明变量间存在着确定性的函数关系; r取0时,意味着它们之间无线性相关关系,但并不说明它们之间不存在着其它形式的相关关系 r越接近于1,表明线性相关越密切;它越接近于0,说明线性相关关系越弱,相关系数的判断标准,为了判断相关关系的密切程度,有人提出了四级划分法:,值得注意的是:r的大小还受到样本容量的影响。如在n=2时,r =1。故在作相关系数检验时,还应查相应的相关系数检验表。,需注意:,变量之间的非线性相关程度较大可能导致r0,当 r0或r很小时,不能得出变量无关的结论。,例:,以下表的数据为例,计算12个企业产量与生产费用之间的简单相关系数。,解:,表上作业,根据表中资料:,

8、即产量与生产费用之间的相关系数r+09202,说明二者之间存在高度正线性相关关系。,【例】 资料详见下表,相关系数为0.9757,说明能源消耗量与工业总产值之间有高度的线性正相关。,等级相关系数,当研究的“变量” 是定性的,如爱好裎度,演出效果,技能高低等,只能给出等级次序或名次先后,而难以用数字准确计量其观测结果。或某些变量虽然能通过定以成绩或给以打分等数字形式给出观测结果,但是亦可将观测结果转换为相应等级。 要度量两变量之间相关关系的密切程度,可采用由斯皮尔曼(CSpearman)运用等级差数法给出的相关系数。它是把研究对象的数量标志或品质标志的具体表现按等级次序排列,再测定两标志等级间的

9、相关程度。,式中,n为等级顼数;d为两变量对应的等级差。,例: 产量与单位成本等级相关系数计算表,由表中的数据可以得到:,说明产量与单位成本是显著负相关。意味着随着产量的增加,单位成本将趋于下降。,幸福是0.25,金钱并非一切,只是常不够用 那么金钱在“一切”中占多大比重?如果金钱常不够用,究竟多少才算够用? 在心理学与经济学的交叉中有一门“经济人理论”,就专门研究这类问题。,“许多学者对金钱与幸福的关系进行了研究,他们无一例外地提出二者的相关性约为025” 弗恩海姆与阿盖尔合著的金钱心理学 这是许多学者向许多国家的许多人,进行大规模抽样调查的结果。也就是说,金钱和幸福之间有一点儿关系,但关系

10、并不大,用学者们的话说是 “轻微的正相关”,对幸福的满意度,金钱收入,0,这轻微的关系又有讲究。假设人们对幸福的满意度为一条纵轴,而金钱收入为一条横轴,两轴相交的起点为零。当人的身上一个大子儿也没有的时候,幸福满意度确实很低,几近于零。一旦人们手中有了钱,也不需很多,简单说来就是摆脱了食不果腹衣不蔽体的困境,只见坐标上的那条曲线“嗖”地蹿了上去,很快又成为一条水平线,任凭横轴百万、千万、亿万而纵轴上的幸福满意度不再上升,这就是所谓的金钱边际效应递减。,相关关系不等于因果关系; 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; 极端值可能影响相关系数。 注意相关关系成立的数

11、据范围。 警惕虚假相关,使用相关系数时应注意的问题:,第二节 回归分析,一、回归分析概念,二、一元线性回归模型的建立,三、回归分析时应注意的问题,一、回归分析的基本概述,“回归”(退回regression)问题最早来源于生物界,英国生物学家兼统计学家高尔顿(alton,1822-1911)发现同一种族中儿子的平均高度介于其父亲的高度与种族平均高度之间。儿子的身高有返归于种族平均身高的趋势,即回归于种族的平均身高。,回归:退回regression,1877年 弗朗西斯高尔顿爵士 遗传学研究 回归线,回归分析(regression):通过一个或几个变量的变化去解释另一变量的变化。包括找出自变量与因

12、变量、设定数学模型、检验模型、估计预测等环节。,自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。,X,Y,回归分析分类,按自变量个数分类,一元回归简单回归,多元回归复回归,按方程式特征分类,线性回归,非线性回归,一 元线性回归,Simple Linear regression,总体一元线性回归模型:,误差项,假定: E()=0,总体一元线性回归方程:,二、一元线性回归模型的建立,误差项是随机变量 反映x和y之间的线性关系之外的随机因素对y的影响

13、是不能由x和y之间的线性关系所解释的变异性,一元线性回归方程的几何意义,一元线性回归线的可能形态,截距,斜率,样本一元线性回归方程:(估计的回归方程),总体未知参数,以样本统计量估计总体参数,(二)回归系数的计算 根据普通最小二乘法(Ordinary Least Square ,OLS)计算,用最小二乘法拟合的直线来代表x和y之间的关系与实际数据的误差比其他任何直线都小。,最小二乘法的基本原理就是寻一条总的看来 离各散点最近的一条直线,使实际值y 与 相应的 理论值 之间的误差达到最小。即:,最小二乘法(Least squares method):以极小化 为目标的求估计方程的过程。,根据微积

14、分的极值定理,Q最小的必要条件为:,整理后得如下方程,称最小二乘法的标准方程:,解方程得,残差(Residual):e,一元线性回归模型的举例,一元线性回归模型 yt = 0 + 1 xt,n=13,结果表明人均国民收入每增加1元,人均消费金额平均增加0.53元。,回归方程为 y =54.22286 + 0.52638 x,例:,以下表的数据拟合生产费用对产量的回归直线方程,将表中有关数据代入公式中:,生产费用对产量的直线回归方程为;,其中a124.15(千克)的含义为生产费用的起点值 B0.4027表示产品产量每增加1千件,生产费用平均 增加0.4027千元。,下图可看散点图与回归直线的关系

15、:,一元线性回归模型的预测,单值预测(点估计) 单值预测就是用单个值作为因变量新值的预测值。 计算公式为:,估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著的。,回归分析的点估计:对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值。,若 x = 169,则:,使用点估计应注意的问题: 利用点估计得到的Y平均值的点估计值和Y的一个个别值其结果是相同的。 点估计不能提供估计量的精确度。 在样本自变量取值范围之外进行预测要特别谨慎。,第三节 应用实例,案例:伊春林区位于黑龙江省东北部。全区有森林面积218.97万公顷,木材蓄积量为23246.02万m3。森林覆盖

16、率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m3。按此速度44年之后,现有的蓄积量将被采伐一空。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。 利用简单线性回归模型预测林区每年的木材剩余物。 显然引起木材剩余物变化的关键因素是年木材采伐量。,第三节 应用实例,1999年伊春林区16个林业局木材剩余物和年木材采伐量资料,第三节 应用实例(分析),由图形可以看出,直观上可以建立一元线性回归模型: yt = 0 + 1 xt,第三节 应用实例(分析),可以计算出变量间的相关系数为0.96,这表明年木材剩余物与年木材采伐量之间存在着高度相关关系。从而,我们完全可以建立二者之间的一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号