10-简单线性回归分析(研200531)(精)

上传人:小** 文档编号:70756503 上传时间:2019-01-18 格式:PPT 页数:76 大小:3.23MB
返回 下载 相关 举报
10-简单线性回归分析(研200531)(精)_第1页
第1页 / 共76页
10-简单线性回归分析(研200531)(精)_第2页
第2页 / 共76页
10-简单线性回归分析(研200531)(精)_第3页
第3页 / 共76页
10-简单线性回归分析(研200531)(精)_第4页
第4页 / 共76页
10-简单线性回归分析(研200531)(精)_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《10-简单线性回归分析(研200531)(精)》由会员分享,可在线阅读,更多相关《10-简单线性回归分析(研200531)(精)(76页珍藏版)》请在金锄头文库上搜索。

1、10 简单线性回归分析,主 讲: 卢 洁 Ph.D,E-mail : hanyaa800 ,办公室:郑大公卫学院 A510室,统计学研究特点:,研究的是样本,要对总体作出推断,得到的是频率,要对概率作出推断,需进行参数估计和假设检验,抽样研究,抽样误差,利用“小概率原则”进行统计推断,准确的收集数据; 准确的录入数据; 正确的选用统计分析方法、调用统计分析程序; 对输出的结果作出合理的解释。,统计学学习的重点是掌握如何:,统计 描述,参数估计:点估计、区间估计,假设检验,定量资料,离散趋势:,算术均数、 中位数等,集中趋势:,极差、 四分位数间距、 方差、标准差、变异系数,定性资料:频率型指标

2、、强度型指标、比,统计表和统计图,统计 推断,统计学的主要内容:,变量,对于单变量,对于多变量:,多重线性回归、logistic分析,非参数检验,参数检验,定量资料,定性资料,实验设计,对于两变量:,简单线性相关和回归分析,数据资料,定量资料,数据 类型,设计 类型,单样本,定性资料,设计 类型,两独立样本,配对样本,多独立样本,随机区组,t / Z检验,方差分析,单样本,两、多独立样本,配对样本,等级资料,进入条件,不满足进入条件,秩和检验,四格表,RC列联表,配对RC,x2检验,设计 类型,配对四格表,如果你知道某一个人的身高和体重,你能知道这个人的手指有多粗吗? 如果你知道患儿的月龄,你

3、能换算出他体重是多少吗? 考察父亲身高与子女身高之间的关系。 考察收入水平与受教育程度之间的关系。,回归分析:是研究一个随机变量如何随另一个变量(可固定,也可随机)变化的。,从一组样本数据出发,确定变量之间的回归关系式; 对这些关系式的可信程度进行各种统计检验,并从影 响因变量的诸多变量中找出具有统计学意义的变量; 利用所求的关系式,根据一个或几个变量的取值来预 测或控制另一个特定变量的取值,并给出这种预测或 控制的精确程度。,回归分析的主要目的: 就是研究固定自变量X的情况下,因变量Y的总体均数与X之间的回归关系;即:,线性回归方程的建立 回归方程的解释 线性回归的前提条件 回归方程的假设检

4、验 回归方程的统计应用,10.1 什么是回归? 。 10.2 简单线性回归模型 。,10.1 什么是回归?,1. 线性回归分析 linear regression analysis,:研究一个变量和另外一些变量间线性数量关系的统计分析方法。,简单线性回归 simple linear regression,多重线性回归 muptiple linear regression,:涉及多个变量(自变量、解释变量)时称。,:模型中只包含两个有“依存关系”的变量,一个变量随另一个变量的变化而变化,且呈直线变化趋势,叫。,分类,矮个子的父代:64英寸 而它子代:67英寸,父亲和他儿子的身高:,1.父代的总均

5、数=68英寸 子代的总均数=69英寸,2.高个子的父代:72英寸 而它子代:71英寸,调查了1087对父子:,例10.1 为研究大气污染一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同高度测定了该时间段平均气温()、空气湿度()、风速(m/s)以及空气中一氧化氮(NO)的浓度(10-6),数据如下表。,2. 简单线性回归的两个变量:,反应变量 response variable或 因变量dependent variable :是按某种规律变化的随机变量,是被估计的被预测的变量。用“Y”表示。,解释

6、变量explanatory variable或自变量 independent variable 或预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是“Y”所依存的变量,常用“X”表示,可是随机变量,也可是人为控制或选择的变量。,若 Y 随X1、X2、Xm的改变而改变:,资料类型:定量资料 目的:了解一氧化氮浓度与汽车流量、气候状况等单变量之间的依存关系。,【案例解析】,简单线性回归,线性回归的分类:,I 型回归 :因变量(Y)是随机变化的,但自变量(X)可以不随机 ,当它是能够精确测量和严密控制的量时,叫Y 关于X 的I型回归。,II型回归 :因变量(Y)和自变量(X)

7、都是随机变化的,叫Y 关于X 的II型回归。,表12-1 不同IgG浓度下的沉淀环数据,线性回归关系的特点:,各观测点分布在直线周围的束状带内; 当变量 X 取某个值时,变量Y取值可能有几个。 变量间关系不能用函数关系精确表达,10.2 简单线性回归模型的建立,只考虑NO浓度和车流量的关系,问之间是否存在数量依存关系?,10.1.1 解析:,回归分析的要达到下面三个目的:,X和Y间的回归联系是否有统计学意义? 车流量对NO浓度的影响(贡献)有多大?, 统计推断,10.1.2 如何定量地描述两者的关系:,绘制散点图,回归方程:求回归系数和常数项,回归方程和回归系数 的假设检验,总体回归系数的区间

8、估计,回归方程的统计应用,(一)绘制散点图,从散点图可见:车流量与空气中NO浓度所对应的点分布在一个线性束状带内,有线性的趋向,所以可以考虑做线性回归分析。,通常情况下,研究者只能获得一定数量的样本数据,用样本数据建立的有关Y依从X变化的线性表达式称为回归方程(regression equation),记为:, YX= +X,那么在总体中,可能存在对应的方程模型:,让所有点的 的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。,(三)回归参数的估计:最小二乘估计 least square estimation,回归参数的估计方法:,回归方程:,用最

9、小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即:使下列的SSE达到最小值。,求:NO浓度和车流量间的简单线性回归方程?,解:由样本数据了解计算统计量,带入下公式,求出回归系数b,作回归直线图,带入下公式,求出回归截矩a,最小二乘法原则下的回归方程为:,(三)建立回归方程,作回归直线图,回归方程的解释,b 的意义? a 的意义? 的意义 的意义?,回归系数的意义:,1. 由总体回归方程可知 YX= + x, 参数 的意义:若自变量X增加1个单位,反应变量Y的 平均值便增加 个单位。 。 2. 由于 是 YX= +X 的估计表达式, 所以(样本)回归系数b 表示

10、X 增加一个单位,样本观察值Y 平均增加 b 个单位。,总体回归系数( regression coefficient ), 的统计学意义:X每增加(或减少)一个单位,Y 平均改变了个 单位; 越大,表示Y 随X 增减变化的趋势越陡。, 0, 表明Y与X呈同向线性变化趋势 =0, 表明Y与X无线性回归关系,但可能有其它关系 0, 表明Y与X呈反向线性变化趋势,3. 线性回归分析的前题条件:,线性(linear) 独立性(independent) 正态性 (normal) 等方差性(equal variance),图12-3 线性回归模型的适用条件示意图,3. 线性回归分析的前题条件,line,n

11、ormal 正态性,equal variance 等方差性,反应变量Y 的总体平均值与自变量X呈线性关系,在一定范围内任意给定值,则对应的随机变量服从正态分布,在一定范围内,对应于不同X值,Y总体变异程度相同,linear 线性,(四)回归方程有统计学意义吗? 总体回归系数的统计推断:,就总体而言,这种回归关系是否存在?即总体回归方程是否成立?,由于样本回归系数b与总体回归系数存在抽样误差,即:一般情况下, b ,因此需要考虑抽样误差对统计推断是否存在重大影响?,假设检验,回归模型的假设检验(model test):,回归系数的假设检验:,目的:检验求得的回归方程在总体中是否成立; 方法:单因

12、素方差分析。,目的:即检验总体回归体系数是否为0(=0); 方法:t 检验。,1. 回归模型的假设检验方差分析,SS总= SS回归+ SS残差,v总= v回归+ v残差,变异的分解:,回归方程假设检验的基本思想:,如果总体中自变量X对因变量Y没有贡献,则由样本所得的回归均方与残差均方应相近; 反之,如果总体中自变量X对因变量Y有贡献,回归平方和反应的就不仅仅是随机误差,即回归均方必然要远大于残差均方; 依此,可计算检验统计量F值作出判断。,问:所求得的回归方程在总体中是否成立?,均方:MS=SS/v,回归均方:MS回归=SS回归/v回归 残差均方: MS残差=SS残差/v残差,检验统计量:,查

13、F界值表(P572),确定单侧临界值Fa(v回归, v残差), 求概率值 P,下结论,1. 建立假设,确定检验水准 H0 :总体回归方程不成立, 即总体中自变量X对因变量Y没有贡献; H1 :总体回归方程成立, 即总体中自变量X对;因变时Y有贡献。 =0.05 (单侧),查F 界值表(P572):a =0.05,v回归=1、 v残差=n-2=22,得:F(k-1, n-k)= F(1,22) =4.30,3. 确定P值,作出推断结论: 由于F=41.3764.30,则P0.05,故拒绝H0,接受H1,可认为在a =0.05 的显著水平上,NO浓度与车流量之间的回归方程具有统计学意义。,2. 计

14、算检验统计量F值:,2. 回归系数的假设检验 t 检验,=0,说明Y与X之间并不存在线性关系 0,说明Y与X之间存在线性关系,即:对于X 的任何值,总体均数 YX 没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,t 检验:,检验过程:,注意:,1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t 检验,即有:,2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,则相关系数的 t检验与回归系数数的t 检验等价,即有

15、:,(五)总体回归系数的区间估计:,已知b为回归系数的样本估计值,Sb为样本回归系数的标准误, 则总体回归系数的双侧1-置信区间为:,上例题中b=0.1584,Sb=0.0246,v=22,查t 界值表得:t0.05/2,22=2.074;则其总体回归系数的双侧95置信区间为:,b t/2,v Sb,0.1584 2.074 0.0246=(0.1074,0.2095),【电脑实现】 SPSS,线性回归分析: 1. 数据录入,2.线性回归分析的步骤:,3. 结果及结果输出:,(六)回归方程的解释: 车流量对NO浓度的影响有多大?,决定系数:回归平方和与总平方和之比。 0R21 反映了自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的百分比(variance account formula,VAF); 反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标。,上例题:SS总=0.0812, SS回归=0.0530 R2= SS回归/ SS总=0.0530/0.0812=0.6527=65.27% 解释: 说明空气中NO浓度总变异的65.27%

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号