Chp10_Regression

上传人:壹****1 文档编号:35513895 上传时间:2018-03-16 格式:PDF 页数:46 大小:1,015.33KB
返回 下载 相关 举报
Chp10_Regression_第1页
第1页 / 共46页
Chp10_Regression_第2页
第2页 / 共46页
Chp10_Regression_第3页
第3页 / 共46页
Chp10_Regression_第4页
第4页 / 共46页
Chp10_Regression_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《Chp10_Regression》由会员分享,可在线阅读,更多相关《Chp10_Regression(46页珍藏版)》请在金锄头文库上搜索。

1、Chp 10 直线回归直线回归直线回归直线回归 举例说明回归背景问题举例说明回归背景问题 通过例子导出直线回归的意义通过例子导出直线回归的意义 简述正态分布的性质简述正态分布的性质 由此导出直线回归分析对资料的要求由此导出直线回归分析对资料的要求 简述直线回归的回归系数检验简述直线回归的回归系数检验 直线回归的预测值及其直线回归的预测值及其95%95%可信区间可信区间 直线回归分析小结直线回归分析小结 思考题思考题Correlation举例举例例例 为了研究为了研究3 3岁至岁至8 8岁男孩人群平均身高岁男孩人群平均身高(cm)(cm) 与年龄与年龄(year)(year)的规律,在某地区在的

2、规律,在某地区在3 3岁至岁至8 8岁男岁男 孩中随机抽样,共分孩中随机抽样,共分6 6个年龄层抽样:个年龄层抽样:3 3岁,岁,4 4 岁,岁,8 8岁,每个层抽岁,每个层抽3 3名男孩,共抽名男孩,共抽1818名男名男 孩。资料如下:孩。资料如下:年龄年龄X3 33 33 34 44 44 45 55 55 5身高Y身高Y92.592.597979696100100 96.596.5101101106106104104107107年龄年龄X6 66 66 67 77 77 78 88 88 8身高Y身高Y115.5115.5116116110110126126118118118118122

3、122129129124124本例的研究目的和实现方法本例的研究目的和实现方法1.1. 研究目的:了解年龄与儿童人群的平均身高对研究目的:了解年龄与儿童人群的平均身高对 应关系。应关系。 2.2. 方法方法1 1:可以做普查,得到每个年龄组所有儿童:可以做普查,得到每个年龄组所有儿童 的身高,并且计算每个年龄组的儿童人群的平的身高,并且计算每个年龄组的儿童人群的平 均身高。均身高。 3.3. 方法方法2 2:作抽样调查,本例就是通过按年龄组分:作抽样调查,本例就是通过按年龄组分 层抽样调查,获得样本后用回归分析的方法得层抽样调查,获得样本后用回归分析的方法得 到每个年龄组儿童人群的平均身高估计

4、值和并到每个年龄组儿童人群的平均身高估计值和并 作相应的统计推断。作相应的统计推断。儿童身高的分布特征儿童身高的分布特征一般而言,儿童身高满足一般而言,儿童身高满足 1.1. 同一年龄同一年龄x x的儿童身高的儿童身高y y近似服从正态分布,因近似服从正态分布,因 此对于每个年龄此对于每个年龄x x,均有一个身高,均有一个身高y y的总体均的总体均 数数。2.2. 不同年龄不同年龄x x的儿童身高分别近似服从对应不同的儿童身高分别近似服从对应不同 身高总体均数身高总体均数的正态分布。的正态分布。3.3. 身高的总体均数身高的总体均数是年龄是年龄x x的一个函数的一个函数|Y X|Y X|Y X

5、画散点图考查身高与年龄的分布关系画散点图考查身高与年龄的分布关系yx34567890100110120130Y Y的离散程度与的离散程度与X X没有关系,并且散点呈直线带没有关系,并且散点呈直线带画散点图考查身高总体均数与年龄的关系画散点图考查身高总体均数与年龄的关系年龄组的身高样本均数与年龄的散点图年龄组的身高样本均数与年龄的散点图 (没有外延性没有外延性)由散点图确定身高总体均数与年龄由散点图确定身高总体均数与年龄 可能是直线关系可能是直线关系可以可以假定假定固定年龄的身高总体均数固定年龄的身高总体均数 与年龄与年龄x x的关系可能是直线关系,即假定:的关系可能是直线关系,即假定:并且称上

6、述直线方程为并且称上述直线方程为( (总体总体) )回归方程回归方程。Y称为应变量或反应变量,称为应变量或反应变量,X为自变量,为自变量, 为回归直线的截为回归直线的截 距参数。距参数。 为回归直线的斜率为回归直线的斜率|Y X|Y XX回归方程回归方程回归方程中回归方程中 , 为未知参数,需要为未知参数,需要用样本资料通用样本资料通 过拟合曲线后得到其估计值,并分别记为过拟合曲线后得到其估计值,并分别记为a a和和b b, 相应得到样本估计的回归方程相应得到样本估计的回归方程通常称通常称为为Y Y的预测值,其意义为固定的预测值,其意义为固定x x,Y Y的的 总体均数总体均数的估计值。的估计

7、值。bXaYYXYY Y与与x x的直线回归关系的直线回归关系由总体回归方程由总体回归方程可知:当可知:当 =0=0时,时,。即:对于。即:对于x x的任的任何值,总体均数何值,总体均数没有任何改变,因此建没有任何改变,因此建立立Y Y与与x x的直线回归方程就没有任何意义了的直线回归方程就没有任何意义了所以称所以称 0 0时,时,Y Y与与x x之间存在直线回归关系之间存在直线回归关系反之反之 0 0 Y Y与与x x之间称不存在直线回归关系。之间称不存在直线回归关系。|Y XXXYXY|正态分布性质简述正态分布性质简述2( ,)YN ZY性质性质1 1:设:设Y Y 服从某个正态分布,则服

8、从某个正态分布,则Y Y的总体均数的总体均数 和总体方差和总体方差 2 2唯一决定了唯一决定了Y Y的确切分布。的确切分布。性质性质2 2:设:设,令,令则:则:性质性质3 3:设:设,令,令则:则:2(0,)ZN2(0,)XNZX2( ,)ZN 回归模型回归模型根据上述性质,应用到本例的实际问题:根据上述性质,应用到本例的实际问题: 1.1. 固定年龄固定年龄X X,身高,身高Y Y服从总体均数为服从总体均数为, ,方差方差 为为 2 2的正态分布的正态分布。 2. 2. 由散点图可以假定总体均数由散点图可以假定总体均数 3. 3. 故故 4. 4. 令令,5. 5. 即:即:, ,并称为直

9、线回归模型。并称为直线回归模型。|Y X|Y xx2(,)YNx2 |(,)Y XN|Y xYYx2(0,)NYx误差误差 与残差与残差|Y XYxY称为随机误差称为随机误差称为残差称为残差(residual)(residual)根据上述,直线回归分析要求资料满足根据上述,直线回归分析要求资料满足固定固定X X,Y Y服服 从正态分布从正态分布等价于等价于残差服从正态分布残差服从正态分布。YYYabx直线回归原理示意图直线回归原理示意图所以如果固定所以如果固定x x,Y Y服从正态分布,其散点图呈直线带分布服从正态分布,其散点图呈直线带分布直线回归系数的估计直线回归系数的估计用最小二乘法拟合直

10、线,选择用最小二乘法拟合直线,选择a a和和b b使其残差(样使其残差(样 本点到直线的垂直距离本点到直线的垂直距离) )平方和达到最小。即平方和达到最小。即: :使使 下列的下列的SSESSE达到最小值。达到最小值。由此得到由此得到22)()(iiiibxayyySSExbyaxxxxyybiii,)()(2回归系数估计的另一种表达式回归系数估计的另一种表达式2211iiiiiiy xyxnb xxn 可以证明:回归系数估计式可以证明:回归系数估计式b b还可以表示为:还可以表示为:回归系数的意义回归系数的意义由总体回归方程可知由总体回归方程可知回归系数回归系数 表示:表示:x x增加一个单

11、位,总体均数增加一个单位,总体均数增加增加 个单位个单位由于由于是是的估计表达式的估计表达式 ,所以,所以( (样本)回归系数样本)回归系数b b表示表示x x增增加一个单位,样本观察值加一个单位,样本观察值y y平均增加平均增加b b个单位。个单位。| y xx| y xYabx| y xx回归系数回归系数 假设检验的必要性假设检验的必要性由于样本回归系数由于样本回归系数b b与总体回归系数与总体回归系数 存在抽样误差存在抽样误差 ,即:一般情况下,即:一般情况下, b b ,因此需要考虑抽样误,因此需要考虑抽样误 差对统计推断是否存在重大影响。差对统计推断是否存在重大影响。由于由于 0 0

12、时,时,Y Y与与x x之间不存在直之间不存在直 线回归关系,因此线回归关系,因此 是否为是否为0 0,涉及到所建立的回归,涉及到所建立的回归 方程是否有意义的重大问题,然而即使方程是否有意义的重大问题,然而即使 0 0,样,样 本回归系数本回归系数b b一般不为一般不为0 0,因此需要对回归系数,因此需要对回归系数 是是 否等于否等于0 0进行假设检验。进行假设检验。|y x回归系数的假设检验回归系数的假设检验H H0 0: =0 vs =0 vs H H1 1: 0 0 =0.05=0.05 回归系数的标准误为回归系数的标准误为其中其中s s为残差的标准差为残差的标准差则回归系数的检验统计

13、量为则回归系数的检验统计量为 ( )bbtse b2( ) ()isse b xx 2()2iyysn回归系数的假设检验回归系数的假设检验残差的标准差残差的标准差s s还可以表示为还可以表示为可以证明:可以证明:H H0 0: =0 =0 成立时,检验统计量成立时,检验统计量t tb b服服 从自由度为从自由度为n n- -2 2的的t t分布。即:当出现分布。即:当出现 , =0 =0 而言这是小概率事而言这是小概率事 件,故可以拒绝件,故可以拒绝H H0 0 : =0=0,认为,认为 0 0 。222()()2iiyybxxsn0.05/2,2| |ntt回归系数检验统计量回归系数检验统计

14、量t t的分布示意图的分布示意图00当当|t|t|t|t0.05,1,n0.05,1,n- -2 2时,对时,对 0 0而言是小概率事件,而言是小概率事件,对对 00而言并非是小概率事件。而言并非是小概率事件。实例计算实例计算故年龄年龄X3 33 33 34 44 44 45 55 55 5身高Y身高Y92.592.597979696100100 96.596.5101101106106104104107107年龄年龄X6 66 66 67 77 77 78 88 88 8身高Y身高Y115.5115.5116116110110126126118118118118122122129129124

15、1242()52.2ixx2()2186.111iyy()()328.5iiyy xx2()()328.56.257()52.5iiixxyybxx 5.5, y=109.78x 109.78 6.257 5.575.363aybx实例的回归系数的假设检验实例的回归系数的假设检验 H H0 0: =0 vs =0 vs H H1 1: 0 0 =0.05=0.05 t t0.05/2,160.05/2,16=2.120 F临界值临界值F F0.050.05,1 1,n n2 2时,可以拒绝时,可以拒绝H H0 0,认为,认为 0 0 。在直线回归中在直线回归中,F,F检验和检验和t t检验是等价的检验是等价的. .F F检验统计量分布示意图检验统计量分布示意图当当|FF|FF0.05,n1,n20.05,n1,n2时,对时,对 0 0而言是小概率事件,而言是小概率事件,对对0 0而言并非是小概率事件。而言并非是小概率事件。线性回归中的决定系数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 工程造价

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号