相关分析与回归分析-教案

上传人:san****019 文档编号:67707434 上传时间:2019-01-08 格式:PPT 页数:52 大小:1.64MB
返回 下载 相关 举报
相关分析与回归分析-教案_第1页
第1页 / 共52页
相关分析与回归分析-教案_第2页
第2页 / 共52页
相关分析与回归分析-教案_第3页
第3页 / 共52页
相关分析与回归分析-教案_第4页
第4页 / 共52页
相关分析与回归分析-教案_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《相关分析与回归分析-教案》由会员分享,可在线阅读,更多相关《相关分析与回归分析-教案(52页珍藏版)》请在金锄头文库上搜索。

1、相关分析与回归分析,经济与管理学院,2016 - 2017 学年 雷海东,第10讲,correlation and regression,章节提纲:,1.相关分析概论 2.相关关系的测定 3.一元线性回归分析 4.多元线性回归分析,学习目标 1、了解相关关系的概念及种类、相关分析的概念和内容 2、重点掌握简单相关系数的计算方法 3、掌握回归分析的概念及建立线性回归方程的方法 4、掌握相关参数的统计检验,能对统计软件回归计算的结,第一、二节 相关分析概述 相关关系测定,变量间关系,血压 年龄 动物死亡率 毒物剂量 体重身高 肺活量体重 相关: 血压和年龄关联的程度如何? 动物死亡率与毒物剂量关联

2、的程度如何? 回归: 人群中,平均而言, 血压 如何随年龄变化? 毒性实验中, 动物死亡率如何随剂量变化?,两个随机变量之间的关系,回归:如何 - 即定量的联系,从一个变量来预测另外一个变量。 给定剂量,动物的死亡率,能不能做出预测。,都是描述两个随机变量之间的关系。,回归回答如何,散点图,Fig. 7.1 收缩压和舒张压 (mmHg) (665 名 6 至 10 岁女孩),收缩压,舒张压,他两的关系都是此长彼长。所以总体趋势看得出是向前的。但是给定了一个舒张压,但是收缩压可以是高也可以是低。,指数函数,对数函数,正弦函数,Y 和 X之间的函数关系,对应于给定的 X值, 相应的Y 值是确定的.

3、,但现在给定一个X值,Y可能是不确定的。(是上页),分散,集中,x不论怎么变,Y都是在一个范围走动,那么X和Y没有什么相关性。,烧饼,给定一个X,就是一个水平上,X变,y也是一个水平上,也没有关系,香蕉,x变大,y从小到到,去曲线关系,不是线性关系。 线性相关也几乎是零,虽然是曲线关系,下前三没有相关性,上面都是线性相关,一三是正线性相关,3图相关性好。 2,4是负先关性,4负的绝对值比2好一些。,相关性好就是绝对值好些,一下研究的都是线性相关,简称相关,三、相关关系 相关系数是度量两个变量之间线性相关的方向和强度的测度,常用的度量指标是皮尔逊(Pearson)相关系数 【专栏】在相关分析中,

4、定性分析或经济理论分析重要吗?,correlation coefficient,相关系数(Correlation Coefficient) 1.总体相关系数(Population correlation coefficient),Pearsons 乘积-矩线性相关系数: “两个标准化变量之乘积” 的总体平均 - 简单相关系数(simple correlation coefficient),- X 和 Y 的总体协方差,相关系数也有总体和样本,但一般我们只掌握样本,X舒张压 Y收缩压,x标准化,X标准化*Y标准化相乘,然后取总得平均,在总体里面去平均。总体里面全部人去求平均是总体相关系数。如果去

5、简化,sigama x、y是常数,拿出来外面。,X-x是离均差,上面就是两个离均差相乘,E是期望。期望就是求平均的意思,在总体里面的平均的意思,总体里面的协方差算在一块、舒张压离开平均值多远,收缩压离开平均值都远,相乘一块有多远,也叫监督相关系数,一定介于-1和1之间,总体均数,Ro,去掉n,公式如下:,2. 样本相关系数(Sample correlation coefficient),需要用样本来估计相关系数,怎么定义,类似刚才的,X(Y) - 样本的观察值减去样本的均数 ,然后相乘。乘积统统加起来。,下面不求平均,不然就约掉了 - 离均差的平方求和乘以离均差的平方求和。,样本的离均差乘积求

6、和,离均差平方之和,介于-1和1之间。有可能发生-1和1,但生活中很少发生,度量线性关系的强度和方向: 1) r =0 - 无线性关系, 或很弱 2) 若绝对值较大 - 线性关系较强 3) 符号正负 - 线性关系的方向 4) +1 or -1 - 完全相关, 实践中少见,P181,研究父子之间身高的关联性,为什么这么来定义?,样本 - 判断关联性,求r,样本的离均差乘积之和,X本身的离均差平方之和,Xbar计算出来,例子8-1,第三节 一元线性回归分析,第三节 一元线性回归分析,回归分析实质就是通过建立数学方程,研究因变量与自变量之间的变动关系,如果分析一个自变量与一个因变量的线性关系,称为一

7、元线性回归分析,如果分析两个或两个以上的自变量与一个因变量的线性关系,则称为多元线性回归。,一、一元线性回归理论模型 一元线性回归模型是用于分析一个自变量x与一个因变量y之间线性关系的数学方程,在变量x与y的直角坐标平面上,可以绘制散点图,可以看出所有的散点大致呈线性关系,or,在一元线性回归之中,因变量由两个部分组成,一个是 ,其解释了自变量x变动引发的线性变化。 另一部分为剩余变动 ,反映了不能为自变量x和因变量y之间的线性关系所解释的其他剩余变动。,根据刚才的那组表。是不是最后会呈这样的图形,板书,那么我们回到线性方程的知识里面去。,用公式来代表,其实就是一个求极值的问题。左边就是 Mi

8、n(Y-Yheand)2。 y-yhead的纵向距离的和最小。y-yhead就是残差,是一个剩余的部分,是一个估计值。实际的是y,希望你估计值yhead尽量接近你实际得到的指标y,这是最好的。所以残差(剩余的部分)最小。而yhead = (a+bx)带进去,求偏导 - 最小二乘法 拓展但两个自变量呢?是不是一个平面。不,是一个三维空间。三个自变量?四维。多变量和一个y,多维。其实只要知道残差最小就行。同样的原理。,二、普通最小二乘估计(ols),最小平方法 是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一

9、般最小平方法的统计表达式是:,式中:,采用这种趋势要配合直线,也可以配合曲线,这需要跟原序列所反映的现象变动的特点来确定。趋势形态判断方法比较多,最为简单的就是画散点图。若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。 首先介绍直线趋势的配合。,(一)直线方程,适用条件:现象发展的各期逐期增长量大体相等。,即,趋势值,【(2X+1)】=2(2x+1)*2=8x+4,画图,这边,x对应的是时间序号,而Y帽子代表的是发展水平。,直线方程公式表示为:,上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求,求方程组:,例 - 某省19911998

10、年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测1999年末的人口数。,8763,n = 8,b求出来都代入到a公式里面,y,x就是第几年,横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在1990年,其序号0用来表示,拟合直线趋势方程。,根据上述公式:,将1999年时间序列号9带入配合的趋势方程,可得到1999年末某省人口数的趋势值(预测值),既,1999年末该省人口数将达到9402.94万人。,1990是原点,画图,上述方程中的x为时间。为了计算方便,可对其进行假设: 当时间项数为奇数时,可假设x的中间项为0,这时时间项依次排列为:,-3,-2,-1,0,1,2,3,; 当时间

11、项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:,-5,-3,-1,1,3,5, 这种设x的方法是要使时间项的正负相抵消,使x=0,则上述联立方程组可简化为:,为了方便手工计算,可以把原数列的重点移至坐标原点,使得”x=0“,此时,标准方程可以化为:,-3,-2,-1,0,1,2,3相加等于零,画图,例如;用简便的方法来计算上面例子。,1999年的时间序号应该为9.,本例中各期的逐期增长量大体相同,可以配合直线趋势方程。,Practic - 某地区各年的粮食产量为:,Tip:,首先判断一下,趋势是怎么样的。,案例:某地区粮食产量直线趋势方程计算,(i)已知:n对观

12、察值(X1,Y1),(X2,Y2),(Xn,Yn); (ii)作散点图(scatter diagram) (iii)若散点图呈直线趋势,则配一条直线: 求出直线的方程式,刚才是X对父子,哪怕是有些分散的,下面看怎么计算,线性回归三步骤,什麽是回归?,找出反映平均水平的那条直线的方程,Y的平均值是如何依赖X,给定 X的数值, Y 的数值取在在一个平均值 (y|x)附近 对应与不同的X值, Y 的平均值座落在一条直线上 - 回归直线. y|x 和 X的关系可用一个线性方程描写.,这样的回归线用方程来表示,三、一元回归的统计检验,统计检验包括线性关系检验和回归系数检验,具体包括拟合优度检验、参数显著

13、性检验以及回归总体线性的显著性检验,1、经济意义检验:就是根据模型中各个参数的经济含义,分析各参数的值是否与分析对象的经济含义相符。 2、回归标准差检验 3、拟合优度检验 4、回归系数的显著性检验,3. 估计标准误差,用来反映回归直线代表性大小的统计分析指标。,回归的残差平方和除以它的自由度来表示,称为剩余方差。标准误差为剩余方差的开方:,P318 例9-7,接下来的内容只做拓展,相关系数计算 检验的步骤 根据公式计算相关系数r值 根据给定的显著性水平,查相关系数检验表,自由度为n-2,得到临界值 统计决策,4. 相关性检验(r检验),判决系数R2是对变量x与y变量进行回归时做出的,用来衡量回

14、归的拟合优度; 相关系数r是对变量x与y变量进行相关分析时做出的,用以判定变量x与y的线性相关程度。,与r的区别:,P319例9-8,r 随样本变化而变化, 是一个随机变量 总体的回归系数 r 问题 : =0 吗? 假定: X 和Y 服从二元正态分布,3. 相关系数的统计检验,相关系数是从样本里面选出来。用样本的相关系数去推出总体的,样本相关系数,总体,如果样本里r非零(0.几),退出 是零 或 是零,但样本里面非零,所以,假设检验,平面上有x轴和y轴,xy服从二元正态分布的话,x本身服从一元真该分布,同理for Y,刚才看的是样本,那么我怎么知道这个样本可否推断出总体?,1、离差平方和的分解

15、P316,= 0,总离差平方和TSS,回归平方和ESS,残差平方和RSS,再回到第一个的拟合优度判断,离差平方和的分解 TSS=RSS+ESS 拟合优度检验(判决系数R2),也叫判决系数,数值范围为01之间。 若R2=1,说明全部样本观察值均在估计的回归直线上,观察值yi与回归值(估算值)完全拟合。 若R2-0,完全不拟合,线性模型完全不能解释因变量yi的变动。 R2越接近于1,拟合程度越好,反之越差。,P317 例子 9-6,t 检验:是对回归系数的显著性检验 t 检验的基本步骤 提出假设 构造t检验统计量,并由样本数据计算t检验值 根据显著性水平,查t分布表,得到临界值 统计决策,5. 参

16、数的显著性检验(t检验) P320,t (n-2),显著性检验包括两个方面: 回归系数(参数) 整个回归方程,b 随样本变化而变化, 是一个随机变量 总体的回归系数 b 问题 : =0 吗?,2. 关于回归的统计推断,20对父子,找出来的规律,不完全等同于客观上父子身高的规律,再测20对父子,可能出来就边了,所以b随着样本变化而变化 我们关心不是b是,有了b推测 最关系的是,是不是零的。 是零的话,线是水平的,代表那就没有办法推测出儿子身高。 还有去推断是否为零,统计量,回归系数的标准差,残差的标准差,回归系数的 t 检验 =0.05,样本里面的斜率减去理论上的斜率(H0),=0,so 涉及到Sb样本标准误,b怎么有标准差?换另外一批数值,有另外一个,随机(样本变动)变动,理论上可以推出b随机变动的标准差,t如果太大,不太可能太大,一般2.几,3.几就很

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号