心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn

上传人:大米 文档编号:571111546 上传时间:2024-08-08 格式:PPT 页数:86 大小:1.92MB
返回 下载 相关 举报
心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn_第1页
第1页 / 共86页
心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn_第2页
第2页 / 共86页
心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn_第3页
第3页 / 共86页
心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn_第4页
第4页 / 共86页
心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn》由会员分享,可在线阅读,更多相关《心理与教育统计学陈启山华南师大心理系kaisanchan@yahoo.com.cn(86页珍藏版)》请在金锄头文库上搜索。

1、心理与教育统计学陈启山华南师大心理系Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望回 归1 回归概述回归概述1.1 “回归”的起源l趋中回归(regression toward the mean, Galton)l身高具有遗传性,父代身高X影响子代身高Y,但为什么人类的身高并未两极分化?l子代把父代偏离中心的趋势拉回,即他们向中心回归了。1.2 相关、回归与预测l相关描述两个变量的双向相互关系。l回归是指由一个变量的变化去预测另一个变量的变化,描述一个变量随另一变量做不同程度变化的

2、单向关系。l很多情况下,变量X和Y有一定关系(有相关关系),但又没有确定到可以通过X唯一确定Y的程度(相关为1或-1),人的身高体重就是一例。要通过X去预测Y,就需要找到一种数学方法描述它们的关系,这就是回归分析。l由于X与Y的不确定关系,预测时难免犯错,回归分析的目的就是要找出一个错误最小的方法来用X预测Y。一个自变量两个及两个以上自变量回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性回线性回归归非线性非线性回归回归1.3 回归模型1.4 回归分析的过程(内容)l建立并求解回归模型的方程l检验与评价回归方程的有效性 针对整个回归方程 针对各个回归系数l

3、利用回归方程作出预测与控制2 一元线性回归一元线性回归l举例 下表是15名高一学生的英语入学成绩和期末成绩,求出该数据的回归方程。另有某生入学成绩为80分,试预测其期末成绩。2.1 回归方程的建立l回归的目的就是要找出一个错误最小的方法来用X预测Y。l散点图显示,每个X可能对应多个Y值,此时用各Y值的均值作为预测值,犯的错误最小。换言之,在图上每个X值上我们可以多加一个小点表示相应的各个Y值的均值。原则上看,将这些小点连起来所的回归线用来预测Y值,所犯的错误最小。l然而,这条线通常是曲折的。很难用一个方程来表示。为求方便,应将其变成一条直线。l一元线性回归就是通过确定一个直线方程,以最佳拟合这

4、条折线,以达到用一个自变量的值来预测因变量值时犯错最小的目标。这个方程是:l现在的问题是:这条直线应该在坐标轴的哪个位置上,即回归直线的斜率和截距各应为多少?2.2 回归方程的参数估计l最小二乘法(Ordinary Least Squares, OLS )就是使各点与回归线纵向距离的平方和最小,也即使因变量观察值与估计值间的离差平方和(误差) 最小。l最小二乘法拟合的直线来代表X与Y间的关系与实际数据的误差比其他任何直线都小。l根据最小二乘法的要求,可求得:l回归系数与相关系数的关系用用X预测预测Yl本例题中la是回归线的截距,表示Y的基础水平lb是回归线的斜率,表示X变化一个单位时,Y的平均

5、变化。某生入学成绩为80分,则预测其期末成绩为77.94.l通过这个实例可以看出,有了实际的观测数据,根据公式就能求出一个回归方程。问题是:所求得的方程是否有实际意义?l或者说,抽取另一个样本,是否能求得相同或类似的回归方程?是否对自变量与因变量的关系做相同或类似的刻画?l显然,这是一个估计总体参数的置信区间和假设检验的问题。2.3 回归方程的检验与评价l根据实际观测数据,最小二乘法求得的b、a分别是总体参数的无偏点估计(即由多次抽样数据估计得到的不同的b、a的均值分别等于总体参数B、A)。l估计总体参数的置信区间和假设检验时,需要考虑抽样误差。考虑估计误差的分布和样本统计量b、a的抽样分布。

6、l本部分主要探讨以下问题:(1)估计标准误(估计误差的标准差)(2)样本统计量的抽样分布(3)回归方程模型的显著性检验(4)回归方程参数的置信区间与检验(5)回归方程效果的评价2.3.1 估计标准误l双变量正态分布l估计误差(残差)的方差l每个X对应的Y值为正态分布,回归方程的预测值是对Y均值的预测。预测值与观测值间通常存在差异(即预测的误差)。预测值偏离实际观测值的离散程度,即估计误差方差为: l估计误差方差(the variance of error of estimate)l估计误差方差示意图l估计标准误(估计误差标准差)误差平方和的误差平方和的df ,所损失的两个所损失的两个df 是是

7、发生在估计发生在估计Y 值时值时需要先计算需要先计算b 和和a 。误差平方和(error/residual sum of squares, SSE)误差均方(error/residual mean squares, MSE)l估计标准误表示观测值Y值偏离回归线的分散程度(回归线上的预测值是对Y均值的估计) 68.26%的被试的实测分数会落在预测值上下1个标准误的范围内 95.44%会落在上下2个标准误之内 99.72%会落在上下3个标准误之内2.3.2 样本统计量的抽样分布l一元线性回归中的样本统计量主要是: (1)回归系数 (2)常数项 (3)因变量的估计值l所谓抽样分布是指固定自变量X的水

8、准,重复抽样所得到不同样本而造成的样本统计量不同的现象。l可以证明,它们均呈现正态分布。l回归模型中各统计量的分布是回归模型统计推断的理论基础总体参数样本统计量均值标准差AaABbBYY2.3.3 回归方程的显著性检验l所要解决或者回答的问题是:整个回归方程是否有意义,即所有自变量的系数是否都显著大于0。lF 检验l一元线性回归中,回归方程的显著性检验等价于回归系数的显著性检验。为什么?X P (X,Y)Yl因变量总变异的分解2. 两端平方后求和有1.从图上看有SST= SSR+ SSE总平方和(SST)回归平方和(SSR)残差平方和(SSE)l因变量总变异(离差平方和)的分解证明:SST =

9、 SSR + SSEl总平方和总平方和l反映因变量的 n 个观察值与其均值的总离差l回归平方和回归平方和l反映自变量X的变化对因变量Y取值变化的影响,或者说是由于X与Y之间的线性关系引起的Y的取值变化,也称为可解释的平方和l残差平方和残差平方和l反映除X以外的其他因素对Y取值的影响,也称为不可解释的平方和或剩余平方和l离差平方和的意义1. 提出假设H0:回归方程中所有自变量的系数都为零2. 计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F4.作出决策:若FF,拒绝H0;若Ft,拒绝H0; tt,接受H0(2)常数项的检验la 的标准差为:l常数b0的置信度为

10、1-a的置信区间是:l常数b0的显著性检验:l本讲例题l三种等效的方法:1. 对回归方程进行方差分析2. 对回归系数进行显著性检验3. 对两个变量的相关系数与总体零相关的显著性检验小结:一元线性回归的检验lF=t 2lF=r 22.3.5 回归方程的评价决定系数l回归方程的显著性检验解决的问题是回归方程是否有意义(至少一个自变量系数不为0)但它没有解决的问题是:用回归方程进行预测时预测的误差有多大,即回归的效果如何。因此,我们需要有一个指标来衡量回归直线对数据拟合的好坏。l决定系数(coefficient of determination)l也称复相关系数平方(squared multiple

11、 correlation),它是一个无单位的数,度量了Y的变异(由总平方和衡量)中可以由自变量的变异来解释的比例。l总平方和分解为回归平方和与残差平方和, 回归平方和占的比例越大,残差平方和占的比例就越小,回归直线拟合得越好。 l其意义明确,只与平方和有关,而与参数个数无关,容易推广到多元回归分析,所以很常用。 l决定系数与相关系数的关系l本讲例题l英语期末成绩变异的86.8%可以由入学成绩来解释。2.4 回归方程的应用l用于估计或预测,给定自变量X0 ,可有两种预测: 1. 自变量X0对应的因变量均值的点估计与区间估计 2. 自变量X0对应的因变量真值(实测值)的点估计与区间估计l两种预测的

12、点估计是相同的,将X0带入方程求得Y0。l区间估计则不同:前者的误差只包括Y在回归线上的波动;后者还考虑到了回归线因为样本的不同而发生的变动。因此,前者的区间比后者要窄。2.4.1 X0对应因变量均值的估计l因变量均值的置信度为1-a的置信区间是:l因变量均值的点估计:2.4.2 X0对应因变量真值的估计l区间估计:l其误差来自两个方面,一是针对某一样本而言的误差的标准差,二是因为样本不同而变动时的标准差。故其置信区间:l点估计:l通过以上公式可见,预测区间随X0与X均值距离的增大而增大,当二者相等时,预测区间最短。也即,利用回归方程作预测,自变量离它的均值越近,预测越精确,反之,误差越大。l

13、本讲例题 15名高一学生的英语入学成绩和期末成绩,求该数据的回归方程。某生入学成绩为80分,试预测其期末成绩。某生入学成绩为80分,则预测其期末成绩为77.94;其95的置信区间是(69.54, 86.43) 入学成绩为80分的所有同学期末考试成绩的均值为77.94;其95的置信区间是(75.82, 80.06)2.4.3 估计标准误、相关系数l相关越高,估计标准误越小,预测越准确。2.5 回归方程的解释l回归系数 “平均而言,入学成绩每增加(或减少)1分,期末成绩将增加(或减少)0.865分。” l决定系数 “期末成绩变异的86.8%可以由入学成绩来解释。” l预测 “对入学成绩为80分的学

14、生,预测他们的期末成绩为78分,有95%的把握在70分至86分之间。” 3 多元回归多元回归(multiple regression)l考察两个或两个以上的自变量对同一个因变量的影响。l因变量:连续变量l自变量:连续变量或间断变量3.1 多元回归方程l若因变量Y 同时受到p个自变量X1、X2、Xp的影响,且这些自变量皆与Y 成线性关系,所构成的多元回归模型为:l有N组独立观察的数据:l根据最小二乘原则,求得参数估计值:lb0是X1、X2、XP 都为0时Y 的点估计值;lb1是bY1 2 3P 的简写,它是在X2,X3,Xp 皆保持一定时,X1 每增加一个单位对Y 的效应。即去除X1与其他自变量

15、对Y 的共同影响后,X1对Y 的边际影响,被称为偏(净)回归系数(partial regression coefficient) 。回归方程的直观表现l一个自变量时:回归直线l两个自变量时:回归平面l两个以上的自变量时:请 想 象(1)多元回归模型的显著性检验(2)自变量(偏回归系数)的估计与检验3.2 多元回归的假设检验3.2.1 估计标准误与样本统计量分布l估计标准误:l回归模型中各统计量的分布是回归模型统计推断的理论基础总体参数样本统计量均值标准差B0b0B0BjbjBjYY3.2.2 多元回归模型的显著性检验l平方和与自由度的分解l假设检验l方差分析表l若回归显著性检验结果不显著,说明

16、所有b=0,即自变量都不显著,没有必要做进一步的分析。l若回归显著,仍有可能部分b等于0,需要进一步检验回归系数。3.2.3 偏回归系数的显著性检验l回归系数的置信区间l回归系数的检验l回归系数不显著的可能原因: 1. 样本量太小或自变量较多使(N-P)变小,从而使估计标准误增大,t值变小。 2. Xj全距限制,即标准差过小,使bj的标准误增大。 3. 自变量之间高度相关,即多重共线性(multicollinearity)。 4. 自变量与因变量非线性相关。 5. 数据中有极端值或异常数据。 6. 其他标准化的偏回归系数l偏回归系数b不能反映自变量的相对重要性: 1. b带有具体的单位,单位不

17、同无法比较; 2. 即使单位相同,Xi的变异程度不同,也不能比较。l 但可采用标准化的偏回归系数:即对分子和分母分别除以Y和Xi的标准差,就可以消除单位和变异度的影响,其统计学意义是若增加一个标准差单位,Y将增加或减少Pi个标准差单位。3.3 多元回归的评价l回归模型的整体评价l自变量的相对重要性3.3.1 多元相关系数(multiple correlation coefficient )l也叫复相关系数。表示模型中所有自变量与因变量之间线性回归的密切程度的大小。实际上它是因变量的观测值与其估计值的Pearson相关,但其取值范围为01,没有负值。l用R评价回归模型的优劣存在不足,即使向模型中

18、增加的自变量没有统计学意义,R值仍然会增大。3.3.2 决定系数(coefficient of determination)l等于多元相关系数的平方,表示因变量Y的总变异可由回归模型中自变量解释的部分所占的比例(回归平方和占总平方和的比例)。3.3.3 调整的决定系数(adjusted R2)l随着引入模型自变量个数的增加,残差平方和逐渐减少,R2增大,即使引入的自变量无统计意义, R2也会较高。即R2是一个时候自变量个数与样本规模之比(p:N)影响的系数通常1:10较好,低于1:5时, R2倾向于高估模型的拟合优度。因此需要校正:3.3.4 估计标准误(std. error of the e

19、stimate)l即残差标准差,其大小反应了建立的模型预测因变量的精确程度。其值越小,模型越好。3.3.5 额外平方和(extra sum of square)与R2的变化l额外平方和 在原有回归模型中,多加入一个或多个自变量,造成回归平方和增加的量或者误差平方和减少的量。3.3.6 偏(净)相关系数(partial correlation coefficient)3.3.7 偏决定系数(coefficient of partial determination)l偏相关系数的平方。衡量回归方程中加入的一个或多个自变量对减少残差平方和的边际贡献,即新加入变量解释Y变异的百分比(这个百分比不是以Y

20、的总变异为整体,而是改变量加入前回归方程所未能解释的部分为整体)。l用于判断自变量的重要性。3.4 多元回归的预测与残差分析l回归分析的预测值(点估计)l回归分析的区间估计l残差检验3.4.1 多元回归的预测值l非标准化预测值l标准化预测值3.4.2 多元回归的区间估计lY均值的区间估计l置信度为1-a的置信区间是:lY真值的区间估计l置信度为1-a的置信区间是:例:回归平面的可信区间曲面3.4.3 残差分析l残差值 标准化残差值大于3,标明该样品可能是极端值。l残差分布图 以某种残差(如t-化残差)为纵坐标,以其它指定的变量为横坐标的散点图。通常取横坐标为观测时间(或观测序号)、预测值或者某

21、个自变量。 l学生化残差图 la是最理想的,呈水平带状。lb说明残差方差随自变量取值水平的改变而改变,应作加权最小二乘或对因变量作方差齐性变换。lc的形式说明自变量与因变量有非线性关系,方程中应当包含时间或序号的一次项和二次项ld的形式说明各次观测误差不是独立的,因为残差符号正负交替 l残差是否独立 检验相邻误差项是否有序列相关可用Durbin-Watson检验: lDW的值介于0与4之间。设为序列相关系数,当=0时,DW=2。当=-1时,DW=4。当=1时,DW=0。一般而言,当DW介于1.2与2.8之间时可以认为相邻误差项是独立的。l残差分布是否正态l标准化参差直方图与正态曲线的比较。l标

22、准化残差正态概率图(normal probability plot, PP图),与对角直线对比,如果两者接近,认为误差是正态的。 3.5 最优回归模型的建立l自变量的选择l多重共线性(multicollinearity)的处理3.5.1 自变量的选择l向后(backward)剔除法 从包含最多自变量的方程开始,逐步减少自变量的个数直到得到合适的方程。l向前(forward)选择法 从只包含常数项的最简单的方程开始,依次选入变量直到获得一个满意的方程为止。l逐步(stepwise)回归法 逐步回归在向前选择的每一步,都考虑是否有先前进入的变量需要剔除 3.5.2 多重共线性(multicollinearity)l定义:自变量之间高度相关时,方程中的各自变量会互相削弱各自对Y的边际影响,使本身的回归系数值下降而标准误扩大,于是出现回归方程显著,但各个自变量不显著的现象。l识别:SPSS菜单l处理:4 回归模型进阶回归模型进阶l可线性化的曲线回归l含有交互作用的回归模型l自变量为分类变量的回归模型l二分类Logistic回归模型l路径分析l其他

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号