心理统计学10回归

上传人:E**** 文档编号:90921912 上传时间:2019-06-20 格式:PPT 页数:86 大小:1.53MB
返回 下载 相关 举报
心理统计学10回归_第1页
第1页 / 共86页
心理统计学10回归_第2页
第2页 / 共86页
心理统计学10回归_第3页
第3页 / 共86页
心理统计学10回归_第4页
第4页 / 共86页
心理统计学10回归_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《心理统计学10回归》由会员分享,可在线阅读,更多相关《心理统计学10回归(86页珍藏版)》请在金锄头文库上搜索。

1、心理与教育统计学,陈启山 华南师大心理系 ,回 归,1 回归概述,1.1 “回归”的起源,趋中回归(regression toward the mean, Galton) 身高具有遗传性,父代身高X影响子代身高Y,但为什么人类的身高并未两极分化? 子代把父代偏离中心的趋势拉回,即他们向中心回归了。,1.2 相关、回归与预测 相关描述两个变量的双向相互关系。 回归是指由一个变量的变化去预测另一个变量的变化,描述一个变量随另以变量做不同程度变化的单向关系。 很多情况下,变量X和Y有一定关系(有相关关系),但又没有确定到可以通过X唯一确定Y的程度(相关为1或-1),人的身高体重就是一例。要通过X去预

2、测Y,就需要找到一种数学方法描述它们的关系,这就是回归分析。 由于X与Y的不确定关系,预测时难免犯错,回归分析的目的就是要找出一个错误最小的方法来用X预测Y。,1.3 回归模型,1.4 回归分析的过程(内容) 建立并求解回归模型的方程 检验与评价回归方程的有效性 针对整个回归方程 针对各个回归系数 利用回归方程作出预测与控制,2 一元线性回归,举例 下表是15名高一学生的英语入学成绩和期末成绩,求出该数据的回归方程。另有某生入学成绩为80分,试预测其期末成绩。,2.1 回归方程的建立,回归的目的就是要找出一个错误最小的方法来用X预测Y。 散点图显示,每个X可能对应多个Y值,此时用各Y值的均值作

3、为预测值,犯的错误最小。换言之,在图上每个X值上我们可以多加一个小点表示相应的各个Y值的均值。原则上看,将这些小点连起来所的回归线用来预测Y值,所犯的错误最小。 然而,这条线通常是曲折的。很难用一个方程来表示。为求方便,应将其变成一条直线。,一元线性回归就是通过确定一个直线方程,以最佳拟合这条折线,以达到用一个自变量的值来预测因变量值时犯错最小的目标。这个方程是:,现在的问题是:这条直线应该在坐标轴的哪个位置上,即回归直线的斜率和截距各应为多少?,2.2 回归方程的参数估计,最小二乘法(Ordinary Least Squares, OLS )就是使各点与回归线纵向距离的平方和最小,也即使因变

4、量观察值与估计值间的离差平方和(误差) 最小。 最小二乘法拟合的直线来代表X与Y间的关系与实际数据的误差比其他任何直线都小。,根据最小二乘法的要求,可求得:,回归系数与相关系数的关系,用X预测Y,本例题中,a是回归线的截距,表示Y的基础水平 b是回归线的斜率,表示X变化一个单位时,Y的平均变化。,某生入学成绩为80分,则预测其期末成绩为77.94.,通过这个实例可以看出,有了实际的观测数据,根据公式就能求出一个回归方程。问题是:所求得的方程是否有实际意义? 或者说,抽取另一个样本,是否能求得相同或类似的回归方程?是否对自变量与因变量的关系做相同或类似的刻画?,显然,这是一个估计总体参数的置信区

5、间和假设检验的问题。,2.3 回归方程的检验与评价,根据实际观测数据,最小二乘法求得的b、a分别是总体参数的无偏点估计(即由多次抽样数据估计得到的不同的b、a的均值分别等于总体参数B、A)。 估计总体参数的置信区间和假设检验时,需要考虑抽样误差。考虑估计误差的分布和样本统计量b、a的抽样分布。,本部分主要探讨以下问题: (1)估计标准误(估计误差的标准差) (2)样本统计量的抽样分布 (3)回归方程模型的显著性检验 (4)回归方程参数的置信区间与检验 (5)回归方程效果的评价,2.3.1 估计标准误,双变量正态分布,估计误差(残差)的方差,每个X对应的Y值为正态分布,回归方程的预测值是对Y均值

6、的预测。预测值与观测值间通常存在差异(即预测的误差)。预测值偏离实际观测值的离散程度,即估计误差方差为:,估计误差方差(the variance of error of estimate),估计误差方差示意图,估计标准误(估计误差标准差),误差平方和的df ,所损失的两个df 是发生在估计Y 值时需要先计算b 和a 。,误差平方和(error/residual sum of squares, SSE),误差均方(error/residual mean squares, MSE),估计标准误表示观测值Y值偏离回归线的分散程度(回归线上的预测值是对Y均值的估计) 68.26%的被试的实测分数会落在

7、预测值上下1个标准误的范围内 95.44%会落在上下2个标准误之内 99.72%会落在上下3个标准误之内,2.3.2 样本统计量的抽样分布,一元线性回归中的样本统计量主要是: (1)回归系数 (2)常数项 (3)因变量的估计值 所谓抽样分布是指固定自变量X的水准,重复抽样所得到不同样本而造成的样本统计量不同的现象。 可以证明,它们均呈现正态分布。,回归模型中各统计量的分布是回归模型统计推断的理论基础,2.3.3 回归方程的显著性检验,所要解决或者回答的问题是:整个回归方程是否有意义,即所有自变量的系数是否都显著大于0。 F 检验 一元线性回归中,回归方程的显著性检验等价于回归系数的显著性检验。

8、,为什么?,X,P (X,Y),Y,因变量总变异的分解,2. 两端平方后求和有,从图上看有,SST= SSR+ SSE,因变量总变异(离差平方和)的分解,证明:SST = SSR + SSE,总平方和 反映因变量的 n 个观察值与其均值的总离差 回归平方和 反映自变量X的变化对因变量Y取值变化的影响,或者说是由于X与Y之间的线性关系引起的Y的取值变化,也称为可解释的平方和 残差平方和 反映除X以外的其他因素对Y取值的影响,也称为不可解释的平方和或剩余平方和,离差平方和的意义,1. 提出假设 H0:回归方程中所有自变量的系数都为零,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母

9、自由度n-2找出临界值F 作出决策:若FF,拒绝H0;若FF,接受H0,回归方程显著性检验的步骤,本讲例题:,2.3.4回归方程参数的置信区间与检验,用不同的样本估计回归方程的参数,会产生不同的估计值,所以估计量是个随机变量,它们也有分布,也可以用由它门构造检验统计量来检验a和b是否显著。 回归方程的回归系数与常数项的检验用t检验。,(1)回归系数的检验,检验X与Y之间是否具有线性关系,或者说检验自变量X对因变量Y的影响是否显著。 b是根据最小二乘法对回归系数b的估计,它服从正态分布,其标准差为:,估计标准误,回归系数b1的置信度为1-a的置信区间是:,回归系数b1的显著性检验,1. 提出假设

10、 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 2. 计算检验的统计量,3. 确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0,(2)常数项的检验,a 的标准差为:,常数b0的置信度为1-a的置信区间是:,常数b0的显著性检验:,本讲例题,三种等效的方法: 1. 对回归方程进行方差分析 2. 对回归系数进行显著性检验 3. 对两个变量的相关系数与总体零相关的显著性检验,小结:一元线性回归的检验,F=t 2,F=r 2,2.3.5 回归方程的评价决定系数,回归方程的显著性检验解决的问题是回归方程是否有意义(至少一个自变量系数不为0)但它没有解决的问题是:用

11、回归方程进行预测时预测的误差有多大,即回归的效果如何。因此,我们需要有一个指标来衡量回归直线对数据拟合的好坏。,决定系数(coefficient of determination) 也称复相关系数平方(squared multiple correlation),它是一个无单位的数,度量了Y的变异(由总平方和衡量)中可以由自变量的变异来解释的比例。,总平方和分解为回归平方和与残差平方和, 回归平方和占的比例越大,残差平方和占的比例就越小,回归直线拟合得越好。 其意义明确,只与平方和有关,而与参数个数无关,容易推广到多元回归分析,所以很常用。,决定系数与相关系数的关系,本讲例题,英语期末成绩变异的

12、86.8%可以由入学成绩来解释。,2.4 回归方程的应用,用于估计或预测,给定自变量X0 ,可有两种预测: 1. 自变量X0对应的因变量均值的点估计与区间估计 2. 自变量X0对应的因变量真值(实测值)的点估计与区间估计 两种预测的点估计是相同的,将X0带入方程求得Y0。 区间估计则不同:前者的误差只包括Y在回归线上的波动;后者还考虑到了回归线因为样本的不同而发生的变动。因此,前者的区间比后者要窄。,2.4.1 X0对应因变量均值的估计,因变量均值的置信度为1-a的置信区间是:,因变量均值的点估计:,2.4.2 X0对应因变量真值的估计,区间估计: 其误差来自两个方面,一是针对某一样本而言的误

13、差的标准差,二是因为样本不同而变动时的标准差。故其置信区间:,点估计:,通过以上公式可见,预测区间随X0与X均值距离的增大而增大,当二者相等时,预测区间最短。也即,利用回归方程作预测,自变量离它的均值越近,预测越精确,反之,误差越大。,本讲例题 15名高一学生的英语入学成绩和期末成绩,求该数据的回归方程。某生入学成绩为80分,试预测其期末成绩。,某生入学成绩为80分,则预测其期末成绩为77.94;,其95的置信区间是(69.54, 86.43),入学成绩为80分的所有同学期末考试成绩的均值为77.94;其95的置信区间是(75.82, 80.06),2.4.3 估计标准误、相关系数,相关越高,

14、估计标准误越小,预测越准确。,2.5 回归方程的解释,回归系数 “平均而言,入学成绩每增加(或减少)1分,期末成绩将增加(或减少)0.865分。” 决定系数 “期末成绩变异的86.8%可以由入学成绩来解释。” 预测 “对入学成绩为80分的学生,预测他们的期末成绩为78分,有95%的把握在70分至86分之间。”,3 多元回归(multiple regression),考察两个或两个以上的自变量对同一个因变量的影响。 因变量:连续变量 自变量:连续变量或间断变量,3.1 多元回归方程,若因变量Y 同时受到p个自变量X1、X2、Xp的影响,且这些自变量皆与Y 成线性关系,所构成的多元回归模型为:,有

15、N组独立观察的数据:,根据最小二乘原则,求得参数估计值:,b0是X1、X2、XP 都为0时Y 的点估计值; b1是bY1 2 3P 的简写,它是在X2,X3,Xp 皆保持一定时,X1 每增加一个单位对Y 的效应。即去除X1与其他自变量对Y 的共同影响后,X1对Y 的边际影响,被称为偏(净)回归系数(partial regression coefficient) 。,回归方程的直观表现,一个自变量时:回归直线,两个自变量时:回归平面,两个以上的自变量时:,请 想 象,(1)多元回归模型的显著性检验 (2)自变量(偏回归系数)的估计与检验,3.2 多元回归的假设检验,3.2.1 估计标准误与样本统

16、计量分布,估计标准误:,回归模型中各统计量的分布是回归模型统计推断的理论基础,3.2.2 多元回归模型的显著性检验,平方和与自由度的分解,假设检验,方差分析表,若回归显著性检验结果不显著,说明所有b=0,即自变量都不显著,没有必要做进一步的分析。 若回归显著,仍有可能部分b等于0,需要进一步检验回归系数。,3.2.3 偏回归系数的显著性检验,回归系数的置信区间,回归系数的检验,回归系数不显著的可能原因: 1. 样本量太小或自变量较多使(N-P)变小,从而使估计标准误增大,t值变小。 2. Xj全距限制,即标准差过小,使bj的标准误增大。 3. 自变量之间高度相关,即多重共线性(multicollinearity)。 4. 自变量与因变量非线性相关。 5. 数据中有极端值或异常数据。 6. 其他,标准化的偏回归系数,偏回归系数b不能反映自变量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号