统计学第三版)袁卫庞皓曾五一贾俊平第七章课件

资源描述

《统计学第三版)袁卫庞皓曾五一贾俊平第七章课件》由会员分享，可在线阅读，更多相关《统计学第三版)袁卫庞皓曾五一贾俊平第七章课件（62页珍藏版）》请在金锄头文库上搜索。

1、相关与回归分析,第 7 章,实例1: 中国妇女生育水平的决定因素是什么?,妇女生育水平除了受计划生育政策影响以外，还可能与社会、经济、文化等多种因素有关。 1、影响中国妇女生育率变动的因素有哪些？ 2、各种因素对生育率的作用方向和作用程度如何？ 3、哪些因素是影响妇女生育率主要的决定性因素？ 4、如何评价计划生育政策在生育水平变动中的作用？ 5、计划生育政策与经济因素比较,什么是影响生育率的决定因素？ 6、如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化，预期对这些地区的妇女生育水平会产生怎样的影响？,据世界卫生组织统计，全球肥胖症患者达3亿人，其中儿童占2200万人，1

2、1亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”，已遍及五大洲。目前，全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文）问题: 肥胖症和体重超常与死亡人数真有显著的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的方法去解决。,实例2: 全球吃死的人比饿死的人多?,第7章相关与回归分析,7.1 相关分析 7.2 一元线性回归分析 7.3 线性回归的显著性检验与回归预测 7.4 多元线性回归分析,学习目标,1、变量间的相关关系与相关系数的计算 2、总体回归函数与样本回归函数 3、线性回归的基本假定 4、一元线性回归参数的估计与检验 5、多元线性

3、回归参数的估计与检验 6、回归预测的方法,7.1 相关与回归的基本概念,一、相关关系的概念二、相关系数三、相关,一、相关关系的概念,确定性的函数关系 Y=f (X) 不确定性的统计关系相关关系 Y= f（X）+ (为随机变量) 没有关系变量间关系的图形描述：坐标图(散点图),1.变量间的相互关系,2、相关关系的类型, 从涉及的变量数量看简单相关多重相关（复相关）从变量相关关系的表现形式看线性相关散布图接近一条直线(左图) 非线性相关散布图接近一条曲线(右图), 从变量相关关系变化的方向看正相关变量同方向变化 A 同增同减 (A) 负相关变量反方向变化一增一减 (B) B 从

4、变量相关的程度看完全相关 (B) 不完全相关 (A) C 不相关 (C),总体相关系数对于所研究的总体，表示两个相互联系变量相关程度的总体相关系数为：总体相关系数反映总体两个变量X和Y的线性相关程度。特点：对于特定的总体来说，X和Y的数值是既定的总体相关系数是客观存在的特定数值。,二、相关系数, 样本相关系数,通过x和y 的样本观测值去估计样本相关系数变量 x和y的样本相关系数通常用表示特点：样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的，是对总体相关系数的估计，它是个随机变量。,相关系数的特点：,相关系数的取值在-1与1之间。当r=0时，表明x与y没有线性相

5、关关系。当时，表明x与y存在一定的线性相关关系: 若表明x与y 为正相关; 若表明x与y为负相关。当时，表明x与y 完全线性相关: 若r=1，称x与y 完全正相关；若r=-1，称x与y 完全负相关。,使用相关系数的注意事项：, x和y 都是相互对称的随机变量，所以相关系数只反映变量间的线性相关程度，不能说明非线性相关关系。相关系数不能确定变量的因果关系，也不能说明相关关系具体接近于哪条直线。,相关系数的检验,为什么要检验？样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据：如果x与都服从正态分布，在总体相关系数的假设下，与样本相关系

6、数 r 有关的 t 统计量服从自由度为n-2的 t 分布：,相关系数的检验方法,给定显著性水平，查自由度为 n-2 的临界值若，表明相关系数 r 在统计上是显著的，应否定而接受的假设；反之，若，应接受的假设。,三、 Spearman等级相关系数,当变量不满足正态分布要求或不是数量型变量时, 简单线性相关系数不宜使用,可以用Spearman等级相关系数作相关性分析。对于样本容量为n的变量x 和y ，如果取值都可以分为n 个等级，而且样本的n个单位分别不重复地属于x和y的不同等级，没有两个单位取相同等级的情况，并且用表示样本单位属于x的等级与 y的等级的级差。 Spe

7、arman等级相关系数为：,Spearman等级相关系数的特性,样本等级相关系数的取值范围：时,说明样本等级完全正相关；时, 样本等级完全负相关；时,说明样本等级不相关；当时, 越接近1，正相关程度越高；当时, 越接近-1，负相关程度越高。可以证明：Spearman等级相关系数是简单线性相关系数的特例。,72 一元线性回归分析,一、相关分析与回归分析的联系二、总体回归函数与样本回归函数三、回归系数的普通最小二乘估计四、拟合优度度量,一、相关分析与回归分析的联系,回归的古典意义：高尔顿遗传学的回归概念父母身高与子女身高的关系: 无论高个子或低个子的子女都有向人的平均身高

8、回归的趋势,回归的现代意义：,一个因变量对若干解释变量依存关系的研究回归的目的（实质）：由固定的自变量去估计因变量的平均值,相关分析与回归分析的联系,共同的研究对象：都是对变量间相关关系的分析只有当变量间存在相关关系时，用回归分析去寻求相关的具体数学形式才有实际意义。相关分析只表明变量间相关关系的性质和程度，要确定变量间相关的具体数学形式依赖于回归分析相关分析中相关系数的确定建立在回归分析的基础上。,二、总体回归函数与样本回归函数,若干基本概念 y的条件分布: y在x取某固定值条件下的分布。对于x的每一个取值，都有y的条件期望与之对应，在坐标图上y的条件期望的点随x而变化的轨迹所

9、形成的直线或曲线，称为回归线。如果把y的条件期望表示为x的某种函数： , 这个函数称为回归函数。如果其函数形式是只有一个自变量的线性函数,如 , 称为一元线性回归函数。,总体回归函数（PRF）,概念：将总体因变量y的条件均值表现为自变量x的某种函数，这个函数称为总体回归函数（简记为PRF）。表现形式：（1）条件均值表现形式（2）个别值表现形式（随机设定形式）,样本回归函数（SRF）,概念： y的样本观测值的条件均值随自变量x而变动的轨迹，称为样本回归线。如果把因变量y的样本条件均值表示为自变量x的某种函数，这个函数称为样本回归函数（简记为SRF）。表现形式：线性样本回归函数可

10、表示为或者,样本回归函数与总体回归函数的关系相互联系, 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和是对总体回归函数参数的估计。是对总体条件期望的估计残差 e 在概念上类似总体回归函数中的随机误差u。回归分析的目的：用样本回归函数去估计总体回归函数。,样本回归函数与总体回归函数的关系相互区别,总体回归函数虽然未知，但它是确定的；样本回归线随抽样波动而变化，可以有许多条。样本回归线还不是总体回归线，至多只是未知总体回归线的近似表现。总体回归函数的参数虽未知，但是确定的常数；样本回归函数的参数可估计，但是随抽样而变化的随机变量。总体回归函数中的

11、是不可直接观测的；而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。,三、回归系数的普通最小二乘估计,回归系数估计的思想：为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提: u是随机变量其分布性质不确定，必须作某些假定，其估计才有良好性质，其检验才可进行。原则: 使参数估计值“尽可能地接近”总体参数真实值,一元线性回归的基本假定,假定1：零均值假定。假定2：同方差假定。假定3：无自相关假定。假定4：随机扰动与自变量不相关。假定5：

12、正态性假定,回归系数的最小二乘估计,基本思想：希望所估计的偏离实际观测值的残差越小越好。可以取残差平方和作为衡量与偏离程度的标准最小二乘准则估计式：,最小二乘估计的概率分布性质,和都是服从正态分布的随机变量，其期望为方差和标准误差为结论：,最小二乘估计的性质高斯马尔可夫定理,前提：在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计，即在所有的线性无偏估计中，回归系数的最小二乘估计的方差最小。结论：回归系数的最小二乘估计是最佳线性无偏估计,的无偏估计,为什么要估计？确定所估计参数的方差需要由于不能直接观测，也是未知的对的数值只能

13、通过样本信息去估计。怎样估计？可以证明的无偏估计为：,四、拟合优度的度量,基本思想：样本回归直线是对样本数据的一种拟合，不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上总离差平方和回归平方和残差平方和可决系数定义：,对可决系数的理解,可决系数的特点,可决系数是非负的统计量；可决系数取值范围：；可决系数是样本观测值的函数，可决系数是随抽样而变动的随机变量；在一元线性回归中，可决系数在数值上是简单线性相关系数的平方：，,73线性回归的显著性检验与回归预测,一、回归系数显著性t检验二、一元线性回归模型的预测,一、回归系数显

14、著性的 t 检验,目的：根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验，以检验总体回归系数是否等于某个特定的数值。思想：是未知的，而且不一定能获得大样本，这时可用的无偏估计代替去估计参数的标准误差：,回归系数显著性的 t 检验(续),用估计的参数标准误差对估计的参数作标准化变换，所得的 t 统计量将不再服从正态分布，而是服从 t 分布：可利用 t 分布作有关的假设检验。,回归系数显著性 t 检验的方法,(1) 提出假设一般假设: 常用假设: (2) 计算统计量 (3)给定显著性水平，确定临界值 (4) 检验结果判断若则拒绝原假设，而接受备择假设若则接受原假设 , 拒绝备择假设,回归系数显著性的P值检验 P值的意义,P值的意义: 在既定原假设下计算回归系数的t统计量，可求得统计量大于的概率：这里的是 t 统计量大于值的概率，是尚不能拒绝原假设的最大显著水平，称为所估计的回归系数的P值。,回归系数显著性的P值检验检验方法,回归系数显著性的P值检验方法: 将所取显著性水平与P值对比所取的显著性水平（例如取0.05）若比P 值更大，就可在显著性水平下拒绝所取的若小于P值，就应在显著性水平下接受,二

展开阅读全文