概率论:线性回归

上传人:zw****58 文档编号:47519587 上传时间:2018-07-02 格式:PDF 页数:6 大小:363.06KB
返回 下载 相关 举报
概率论:线性回归_第1页
第1页 / 共6页
概率论:线性回归_第2页
第2页 / 共6页
概率论:线性回归_第3页
第3页 / 共6页
概率论:线性回归_第4页
第4页 / 共6页
概率论:线性回归_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《概率论:线性回归》由会员分享,可在线阅读,更多相关《概率论:线性回归(6页珍藏版)》请在金锄头文库上搜索。

1、1概率论与数理统计第八章应用回归分析应用回归分析回归分析的研究对象1) 家庭收入与家庭支出的关系 2) 父母身高与子/女身高的关系 3) 平时作业成绩与最后的考试成绩的关系 4) 银行利率与股票指数的关系现实世界中变量之间的关系并不总是可以用 函数关系(自变量确定,因变量唯一)来表示的 比如:经验和统计数据表明某些变量的取值相互之间是有 关系的,不是完全无关的,这种关系称为统计相关关系统计相关关系 统计相关关系统计相关关系: 回归分析及回归方程回归分析及回归方程:回归分析回归分析就是研究变量间的统计相关关系 一种统计方法. 根据变元的统计数据,用一个函数来近似变 元间的统计相关关系,这个函数叫

2、回归方程回归方程或回归函数回归函数本例中, 父亲身高与儿子身高的关系就是统计相关关系统计相关关系上述高尔顿得到的近似直线方程就是回归方程回归方程8.1 一元线性回归一元线性回归 一元线性回归的模型:线性关系解释的因素间不能用与它表示为误差项YX , 其中,X为确定性变量,它是可以测量和控制的,也称解 释变量或自变量;Y为被解释变量或响应变量 为未知的待估计参数和10XY102根据变元(X,Y)的一组观测值代入上述一元线性回归模型,得:(iix ,y ), (i=1,2,.,n)011,2,., )iiiyxin(21)(0,)2)3iiiN正态性: 独立性: 相互独立)方差齐性: 的方差相同与

3、i无关21)(0,)2)3iiiN正态性: 独立性: 相互独立)方差齐性: 的方差相同与i无关这三个性质是我们回归分析的前提,一般说来这三个性质是满足或近似满足的,比如正态性,我们知道误差的分布一般是服从正态分布的(事实上正态分布就是高斯研究误差时提出的)。独立性和方差齐性是为了便于分析的附加条件,严格说来,在讨论实际问题时,我们还需要对这三个条件进行检验和验证:1)2)32正态性检验方法:本书7.3.2节分布的检验,或正态分布概率纸检验独立性检验方法:独立性检验,本书8.3节参差分析)方差齐性检验:本书7.2.2节讲了两个随机变量等方差的检验,多个随机变量等方差的检验见本书8.3节参差分析回

4、到我们的一元线性回归模型:其中误差项满足:011,2,., )iiiyxin(21)(0,)2)3iiiN正态性: 独立性: 相互独立)方差齐性: 的方差相同与i无关01iiiiiixxiii观测值( ,y )即散点图中的各个点,如果没有随机误差项 ,这些点都将落在直线(回归方程)上,因为 的不同取值,才导致了y 可能偏离了回归直线。因为 是随机变量,因此y也都是随机变量2 012 01(0,),)iiiiiyxNyNxi由(易 知 :(,2 012 12 012 1121()2 122/ 22 011()22 012/ 20012)1)(2)1()(2)ln0ln0ln0nii inii i

5、nyxnnyxnyyypyyyeLeLyLL 于 是 , (, . . . ,的 联 合 密 度 函 数 为 :(, . . . ,其 中 ,均 为 未 知 参 数 。 根 据 极 大 似 然 估 计 的 方 法 :取 似 然 函 数,由11 1 2122 01 1()()()1()nii xyi n xx i inii ixxxyyLLxxyxn ?我们导出了参数的极大似然估计,但是,历史上高 尔顿是用我们高等数学中所学过的最小二乘法导出 的,因此,一般称之为最小二乘估计01 01100xyxxQyxLQL 推导:0122 min01 11()() =nniiii iiQQyxyySSE 如

6、果我们把求出的参数,代入,得:称为显然,SSE越小,表示观测值距回归直线越近,特别地:当 SSE=0 时,表示所有观测值的点都在回归残差平方和直线上。2222 01 12(0,)1() 22inii iNSSEyxnn SSSnnSEE注意到我们已经证明:误差项中方差的极大似然估计为但这个估计不是无偏的,可以证明的无偏估计为,因此称 为一元回归的估计标准差越小,即SSE越小,它也表示回归估计标准差效果越好312211()()()()nii xyinn xxyy ii iixx yyLL Lxxyy 变元X与Y的相关系数的定义除残差平方和SSE,估计标准差 可以表示回归效果外,我们还可以用相关系

7、数来表示回归的效果是: R=cov(, )()()XYX YE XEX YEY DX DYDX DY对比我们曾学过的随机变量 与 的相关系数r=会发现他们形式上很象。事实上,变元X与Y的相关系数r的定义就是把(,)视为服从二维正态分布时,其相关系数 的极大似然估计) R00xyxxyyLL LR变元X与Y的相关系数 R=与随机变量的相关系数也有类似的性质:1) 12) |R|越大,表示变元X与Y线性关系越强,反之,则表示线性关系越弱3表示变元与是正统计相关关系,即越大则大体上也越大R 表示变元与是负统计相关关系,即越大而大体上会越小222)=nnnyyyi ii ii i如果记: (y(y及前

8、面讲到的:E(y残差平方和则可以证明: 总离差平方和回归平方和离差分解公式2222)= SSE + + SSR 2)()0)(0)nnnnnyyyyyy?ii ii iiiii ii iiiiii证明: (y=(y=(y(y(yyy(yyy注其中:yy0100nQQ i是根据所谓的正规方程,即:导出的。2=SSR SST SSRRSST我们称回归平方和与总离差平方和的比值 为(coefficient of determination),记为离差分解公式 可决系数:或判定系数222)=nSSRXYRSST SSRRSSTyy iii i22SSE in-2注1) 可以证明可决系数一定等于变元 与

9、 相关系数 的平方,因此,可记 (证明略,提示利用正规方程)离差分解公式中,SSR=(y表示回归方程 y的离差平方和(y的均值等于 ),:SSE是由随机误差造成的, 的方差越大则SSE会越大,(是 的无偏估计)3)上述一元回归的离差分解公式,及可决系数的定义可直接推广到多元线性回归关于上述例1,请大家思考如下问题: 我们得到的回归方程有什么用? 根据哪些指标可以判断回归的效果?上述回归的效果如何? 上例中:年龄为自变量(控制变量),体重为因变量(响应变量),回归方程为: y = 7.83+2.01x , 那么据此方程得: x = (y -7.83)/2.01 ,它可否视为把体重作为自变量,年龄

10、作为因变量的回归方程?对于任意给定的一组数值(xi, yi) i=1,2,n,比如 xi表示第i天的最高气温, yi表示第i天股市的收盘指数,是否都可以像例1一样代入参数的公式并求出回归方程?如果观测值较多,直接手算比较复杂,如何借助计算机求解回归方程?4关于问题1:回归方程有什么用途?回归方程的主要用途是预测和控制,比如根据上例的回归方程 y = 7.83+2.01x ,我们可以预测 x=2.2(岁)时儿童的体重为: y = 7.83+2.01*2.2=12.252(kg)-这是y的点估计,我们还可 以得到y的区间估计。对于一元线性回归模型,其中误差项满足正态性,独立性,及方差齐性的条件 ,

11、 给定,则对应的点估计为;当 n 充分大时,置信水平为XY100x0010 yx0y0y 2200111 , yuyu的置信区间可近似表示为 此外,我们还可以求出参数2222220111 1111 111(2), (2)(2), (2)xxxxxxxxxx nLnLLLtntntntn0011和 置信水平为的置信区间分别为:和 01和 的区间估计关于问题2:哪些指标可以判断回归的效果?如下指标都可以直接或间接用来表示回归的效果:参差平方和 SSE 估计标准差 相关系数 R 判定系数 修正判定系数其中p为自变元个数从例1第二问的结果看,该例回归的效果还是很好的2R221 11(1)n anpRR

12、 关于问题3: 能否由体重关于年龄的回归方程: y = 7.83+2.01x , 得出年龄关于体重的回归方程: x = (y -7.83)/2.01=0.4975y 3.8955 ?不可以。事实上,如果把体重作为自变量年龄作为因变量,代 入一元回归的公式,得:x = 0.4939y 3.853; 二者为何不同呢? 因为我们这里介绍的一元回归模型中,自变量与响应变量的地位 是不等同的还有一种回归,叫距离回归,即通过各散点到回归函数的距离平方和最小来求出回 归参数,此时自变量与响应变量的地位是等同的,这种情况下是可以直接从y关于 x 的回归方程解出x 关于y 的回归方程的关于问题4: 对于任意给定

13、的一组数值(xi, yi) i=1,2,n,是否都可以求变量的回归方程?可以代入参数最小二乘估计的公式求出变元的回归方程,但 是,如果变元 X 和 Y 没有统计相关关系,这样求出的回归 方程是没有意义的(如气温与股票点数);而如果回归模型 的三个条件,即正态性,独立性,方差齐性 不满足,我们就 无法对参数的概率特性(分布,区间估计 等)作出判断。直观地说,如果根据变元 X 和 Y 的观测值算出的相关系数的绝对值越大(越接近 1),即表示变元 X 和 Y 线性关系越强,这时拟合观测值(xi, yi)的回归方程越有意义那么,相关系数的绝对值要达到多大才可以求回归方程呢?在统计上,我们是用假设检验的

14、方法来判定变元的线性关系是否显著,因为检验的统计量服从F分布(证明略),因此这个检验叫F检验关于问题4: 如何借助计算机算法进行回归分析?各种统计软件都有回归分析的功能,比如SAS,SPSS,R,包 括MATLAB的统计包 等,这里我们介绍EXCEL的回归分析功能操作步骤(多元回归同样操作,但利用EXCEL多元回归分析时自变元个数不能超过16个):1)把数据输入EXCEL表2)点工具菜单 加载宏 数据分析 回归对例1中数据的EXCEL回归分析结果:相关系数判定系数修正判定系数估计标准差F统计量观测值F检验的P值,当P 值小于给定显著性 水平时,说明变元 线性关系显著0 1P值小于显著性水平时说明常数项显著性非零P值小于显著性水平时说明x系数显著性非零回归参数置信区 间的上下限5例2:恩格尔系数(食品支出与收入之比)的估算已知人均月收入X与人均食品月支出Y的15组抽样数据如下,求恩格尔系数:200280270380340310310260190360270280250260270Y6409208101380129010601230830540158091010209709601020X分析:根据给定数据,先找出X,Y的回归函数,再根据回归函数来估计恩格尔系数解:利用EXCEL

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号