《统计学基础与实务教学课件ppt作者 刘小平 ppt第7章相关与回归分析》由会员分享,可在线阅读,更多相关《统计学基础与实务教学课件ppt作者 刘小平 ppt第7章相关与回归分析(63页珍藏版)》请在金锄头文库上搜索。
1、第7章 相关与回归分析,第一节 相关分析 第二节 一元线性回归分析 第三节 多元线性回归分析,学习目标,1. 变量间的相关关系及相关系数计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验 5. 多元线性回归参数的估计与检验 6. 多个变量的线性相关关系:复相关系数和偏相 关系数 7. 常用的可以转换为线性回归的非线性函数,第一节 相关分析,一、变量间的关系 二、相关关系的类型 三、相关系数,变量间的相互关系,确定性的函数关系 Y=f (X) 不确定性的统计关系相关关系 Y= f(X)+ (为随机变量) 没有关系,相关关系的类型,从涉及的变量数量
2、看:简单相关与多重相关(复相关) 从变量相关关系的表现形式看:线性相关与非线性相关 从变量相关关系变化的方向看:正相关与负相关 从变量相关的程度看:完全相关、不完全相关与不相关,相关关系的类型 (散点图),相关系数 (correlation coefficient),度量变量之间线性关系强度的一个统计量 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r 也称为Pearson相关系数 (Pearsons correlation coefficient) 样本相关系数的计算公式,相关系数的性质,性质1:r 的取值范围是
3、 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1r0,为负相关 0r1,为正相关 |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱,相关系数的性质,性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个 变量之间不存在线性相关关系,并不说明变量之 间没有任何关系 性质4: r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系,相关系数的经验解释,|r|
4、0.8时,可视为两个变量之间高度相关 0.5|r|0.8时,可视为中度相关 0.3|r|0.5时,视为低度相关 |r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关 上述解释必须建立在对相关系数的显著性进行检验的基础之上,相关系数的显著性检验 (检验的步骤),检验两个变量之间是否存在线性相关关系 采用R.A.Fisher提出的 t 检验 检验的步骤为 提出假设:H0: ;H1: 0 计算检验的统计量 确定显著性水平,作出决策。如果t t/2(n-2) ,则拒绝原假设H0;认为所考察两变量的相关性是显著的,即r在统计上是显著的。反之,则认为r在统计上不显著,相关系数的显著性检验 (例题分
5、析),【例】检验销售额与广告费用之间的相关系数是否显著 (0.05) 提出假设:H0: ;H1: 0 计算检验的统计量 =0.05,t =17.89 t/2(n-2) =2.101,则拒绝原假设H0;认为所考察两变量的相关性是显著的,即r在统计上是显著的,认为产品销售额和广告费用之间存在显著的相关关系。,一、回归分析的基本概念 二、一元线性回归模型的设定 三、参数的最小二乘估计 四、一元线性回归分析中的显著性 检验 五、一元线性回归方程预测,第二节 一元线性回归分析,回归的古典意义,高尔顿遗传学的回归概念 父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的趋势,回归
6、的现代意义,一个因变量对若干解释变量依存关系的研究 回归的目的(实质): 由固定的自变量去估计因变量的平均值,什么是回归分析? (regression analysis),重点考察考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来 利用样本数据建立模型的估计方程 对模型进行显著性检验 进而通过一个或几个自变量的取值来估计或预测因变量的取值,回归模型的类型,一元线性回归,涉及一个自变量的回归 因变量y与自变量x之间为线性关系 被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因
7、变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示,一元线性回归模型 (linear regression model),描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为 y = + b x + e y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 和 称为模型的参数,简单线性回归的基本假定,
8、假定1:零均值假定。 假定2:同方差假定。 假定3:无自相关假定。 假定4:随机扰动 与自变量 不相关。 假定5:正态性假定,估计的回归方程 (estimated regression equation),总体回归参数和b是未知的,必须利用样本数据去估计 用样本统计量 和 代替回归方程中的未知参数和b ,就得到了估计的回归方程 一元线性回归中估计的回归方程为,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值,参数的最小二乘估计,参数的最小二乘估计 (method of least s
9、quares ),德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得和b 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,Karl Gauss的最小化图,x,y,(xn , yn),(x1 , y1),(x2 , y2),(xi , yi),参数的最小二乘估计 (和b是的计算公式), 根据最小二乘法,可得求解和b 的公式如下,回归直线的拟合优度,一元线性回归分析中的显著性检验,离差,因变量 y 的取值是不同的,y 取值的这种波动称为离差。离差来源于两
10、个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差 来表示,离差分解图,x,y,离差平方和的分解 (离差平方和的关系),SST = SSR + SSE,总平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),离差平方和的分解 (三个平方和的意义),总平方和(SSTtotal sum of squares) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSRsum of squares of regression) 反映自变量 x 的变化对因变量
11、y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSEsum of squares of error) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,可决系数R2 (coefficient of determination),回归平方和占总离差平方和的比例,反映回归直线的拟合程度 取值范围在 0 , 1 之间 R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差 决定系数平方根等于相关系数,估计标准误差 (standard error of estimate),实际观察值与回
12、归估计值误差平方和的均方根 反映实际观察值在回归直线周围的分散状况 对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量 反映用估计的回归方程预测y时预测误差的大小 计算公式为,回归系数的检验 线性关系的检验,一元线性回归方程显著性检验,回归系数的检验和推断,在一元线性回归中,等价于线性关系的显著性检验 采用t检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数 的抽样分布,回归系数的检验和推断 (样本统计量 的分布),是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分布形式:正
13、态分布 数学期望: 标准差: 由于 未知,需用其估计量sy来代替得到 的估计的标准差,回归系数的检验和推断 (检验步骤),提出假设 H0: b = 0 (没有线性关系) H1: b 0 (有线性关系) 计算检验的统计量,确定显著性水平,计算临界值,并做出决策 拒绝H0,自变量对因变量的影响显著 不拒绝H0,自变量对因变量的影响不显著,线性关系的检验,检验自变量与因变量之间的线性关系是否显著,线性关系的检验 (检验的步骤),提出假设 H0: =0 线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2,查表 作出决策:若 ,拒绝H0。表明线性回归方程显著。,
14、点预测 区间预测,一元线性回归方程预测,点预测,对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计值,区间预测,对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 分两种情形 大样本情形下的区间预测 小样本情形下的区间预测,大样本情形下的区间预测,不同的预测区间和概率保证:,概率保证为68.27%,概率保证为95.45%,概率保证为99.73%,小样本情形下的区间预测,第三节 多元线性相关与回归分析,一、多元线性回归模型的设定 二、参数的最小二乘估计 三、多元线性回归分析中的检验问题,多元线性回归模型的设定,多元线性回归模型 (multipl
15、e linear regression model),一个因变量与两个及两个以上自变量的回归 描述因变量 y 如何依赖于自变量 x1 , x2 , xk 和误差项 的方程,称为多元回归模型 涉及 k 个自变量的多元线性回归模型可表示为,b0 ,b1,b2 ,bk是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xk 的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系所解释的变异性,多元线性回归模型 (基本假定),多元线性回归模型,除了要符合一元线性回归中的零均值、同方差、无自相关、随机扰动项与自变量不相关以及正态性假定以外,还需要增加各自变量之间不存在线性关系的假定。,多元线性回归方程 (multiple linear regression equation),描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,xk的方程 多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 + k xk,b1,b2,bk称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值,估计的多元线性回归的方程 (estimated multiple linear regression equation),是 估计值 是 y 的估计值,用样本统计量