社会统计学2讲义－金锄头文库

资源描述

《社会统计学2讲义》由会员分享，可在线阅读，更多相关《社会统计学2讲义（53页珍藏版）》请在金锄头文库上搜索。

1、社会统计学,第二章回归分析,复习：变量关系,一、回归概述,1、回归的来历：19世纪生物学家F.高尔顿进行的遗传学研究之后统计学家 K.皮尔逊又用观察数据证实了这一现象，从而产生了回归这一名词。,“回归”名称的由来,英国统计学家FGalton（18221911 年）和他的学生、现代统计学的奠基者之一KPearson(18561936 年)在研究父母身高与其子女身高的遗传问题时，观察了1078 对夫妇，以每对夫妇中父亲的身高作为解释变量X，而取他们的一个成年儿子的身高作为被解释变量Y（应变量），将结果在平面直角坐标系上绘成散点图，发现趋势近乎一条直线。计算出的回归直线方程为：,Galton数

2、据散点图（英寸）,一、回归概述2,2回归的定义：分析一个随机变量与多个变量之间的线性关系最常用的统计方法。比如收入与教育、职业的关系；消费与收入、价格的关系等。,一、回归概述3,3回归的功能： a拟合线性关系 b比较自变量的作用大小（影响力） c检验自变量影响的显著程度 d用自变量解释和预测因变量。,一、回归概述4,回归的条件：因变量必须是数值型变量（连续型变量），自变量可以是数值型变量，也可以是定类、定序的虚拟处理变量。在回归模型中，确定（选择）自变量与因变量是建立回归模型的主要任务。也就是说，回归本身只能在统计上计算、验证变量关系，但建构是研究者的事。,二、变量关系与回归的任务,1

3、、变量关系： a函数关系，如 b统计关系，如函数关系的特征：确定性统计关系的特征：不确定,二、变量关系与回归的任务,2.回归的任务对于统计相关的变量，回归分析可以用一条直线或曲线拟合变量的关系，进而来描述当X变化时Y的变化（概率分布）趋势，从而用函数近似描述变量的不确定关系。为了建构变量关系，必须先作图，看趋势，再统计。,二、变量关系与回归的任务,3回归原理：最小二乘法（P25）,最小二乘 (Least squares)法图解,寻找使S(残差i)2 最小的直线,3,3,Least Squares Method The “best” line is the one that minimi

4、zes the sum of squared vertical differences between the points and the line.,w,w,w,w,4,4,(1,2),2,2,(2,4),(3,1.5),Sum of squared differences =,(2 - 1)2 +,(4 - 2)2 +,(1.5 - 3)2 +,(4,3.2),(3.2 - 4)2 = 6.89,2.5,Let us compare two lines,The second line is horizontal,The smaller the sum of squared differe

5、nces the better the fit of the line to the data.,最小二乘法的统计意义,直线回归统计的目的是对于具直线趋势的点，拟合一条直线。回归统计的前提是假设X和Y间具依赖关系；Y随X而变化。当配合线确定后，每个Xi下的原Yi和回归线上相应估计值间的统计误差Yi，是由引入后所致。,回归统计是使为最小的方法。平方即二乘。最小二乘法也即使平方和为最小。根据最小二乘法原理，可以求出一条直线方程。,最小二乘法的统计意义,三、一元线性回归方程,三、一元线性回归方程,1散点图观察：直接拟合直线型,求直线回归的斜率和截距：斜率：截距：得回归式（下页）

6、：,直线回归统计计算公式,Simple Linear Regression Model,Intercept总体截距,Slope总体斜率,三、一元线性回归方程,三、一元线性回归方程,2非线性关系变量变换在自然对数、幂、指数等函数的帮助下，可以将曲线关系转变为直线关系（P24）。,非线性关系（对数函数）的变量变换,幂函数曲线：y=axb,a0 b0,x,y,b1,b=1,b1,曲线模型的判别方法：,理论和经验判断；,观察散点图,曲线模型的确定方法：,通常用变量代换法将曲线转换为直线。按线性模型求解参数，而后再变换为曲线模型。,几种常用的拟合曲线与变换（P24）,一元回归方程及变量变换关系的操

7、作,调用教材附录光盘数据 2-1 2-2 演示（教材讲解P68开始）,非线性变换的说明,实际应用时要注意：第一、对变换后的线性模型进行拟合，并进行回归检验。比较复杂的非线性函数，需综合散点图与经验判断。第二，对检验符合要求的模型用原变量写出回归模型，并用于预测或控制，对检验不符合要求的模型重新拟合，直到符合要求为止。,标准差相等 EQUAL STANDARD DEVIATION 对于任何X值，随机变量Y的标准差 Y|X相等,独立 INDEPENDENCE 每一观察值之间彼此独立,y|X = + x,线性 LINEARITY 反应变量均数与X间呈直线关系 Y|X= + X,直线回归模型的四

8、个假定,正态 NORMALITY 对于任何给定的 X, Y 服从正态分布，均数为 Y|X，标准差为 Y|X,四、多元线性回归,1、多元线性回归的定义相对于一元线性回归方程而言，多元线性回归就是增加了自变量个数，但因变量仍然是只能一个，而且也必须是数值型变量。多元线性回归是简单线性回归的直接推广，其包含一个因变量和二个或二个以上的自变量。简单线性回归的大部分内容可用于多元回归，因其基本概念是一样的。,四、多元线性回归,2多元线性回归的必要性例3、例4（P31）讨论：一元方程与多元方程的统计结果差异,四、多元线性回归,3标准模型设有自变量x1,x2,xp和因变量Y以及一份由n个个体构成的

9、随机样本(x1i,x2i,xpi,，Yi），且有如下关系： y =B0+B1x1+B2x2+Bp xp+ (模型） B0、B1、B2和Bp为待估参数，为残差。由一组样本数据，可求出等估参数的估计值b0、b1、b2和bp,，得到如下回归方程： i =b0+b1x1+b2x2+bp xp 由此可见，建立回归方程的过程就是对回归模型中的参数（常数项和偏回归系数）进行估计的过程。,四、多元线性回归,4一般回归模型（非线性）及其变换教材P32.,例5：中国私人轿车拥有量决定因素分析（多元非线性回归）,1985-2002年中国私人轿车拥有量以年增长率23%，年均增长55万辆的速度飞速增长。在建立

10、中国私人轿车拥有量模型时，主要考虑如下因素：（1）城镇居民家庭人均可支配收入；（2）城镇总人口；（3）轿车产量；（4）公路交通完善程度；（5）轿车价格。由于国产轿车价格与进口轿车价格差距较大，而且轿车种类很多，做分种类的轿车销售价格与销售量统计非常困难，所以因素“轿车价格”暂且略去不用。定义变量名如下： Y：中国私人轿车拥有量（万辆） X1：城镇居民家庭人均可支配收入（元）， X2：全国城镇人口（亿人） X3：全国汽车产量（万辆） X4；全国公路长度（万公里）,例5：中国私人轿车拥有量决定因素分析（多元非线性回归）,轿车拥有量与人均可支配收入轿车拥有量与全国城镇人口,轿车拥有量与全国汽车

11、产量轿车拥有量与全国公路长度,五、方程的解释能力,1、确定系数 2、调整的确定系数 3、多元相关系数R 4、偏确定系数 5、偏相关系数 6、方差分析,X,Y的离均差平方和的分解,再看公式：,几个平方和的意义,方程的解释力：确定系数,确定系数是方程拟合优度的度量；越大说明其方程的拟合数据越好，或者说X与Y的线性关系越强，即回归中的自变量对因变量的解释能力越强。但有特异值时例外（P35）。,调整的确定系数,自变量个数与样本规模均影响的大小。自变量个数与样本规模一般是（k:n=1:10)以上为好。为了避免受自变量个数与样本规模的比例影响，常用调整后的,多元相关系数,对确定系数开方，就得到多元相

12、关系数（multiple correlation）。又称复相关系数，值域是【0，1】。表示的是变量之间线性相关程度。当R=1时，表示所有观察值都落在拟合直线上。,偏确定系数,确定系数是表示方程在所有自变量对因变量的解释力，有时我们还想知道其中一个变量的“边际贡献”,注意：偏确定系数是在原有方程的基础上，增加一个变量时所计算出来的新增X对前方程剩余方差的边际贡献。而不是对议程的整体方差的贡献。,偏相关系数,对偏确定系数开方，即得到偏相关系数的绝对值。前方程控制自变量的个数称为偏相关系数的除数，如一阶、二阶表示些变量之前的方程是控制一个、二个变量。,表示在控制c的情况下，b与a的相关度，由于简

13、单相关没有控制变量，又叫零阶相关。,总变量的方差分解与检验值F,P41,六、回归方程的检验和回归系数的推断统计,教材41-44页。 1 建立检验假设并确定检验水准 H0：0， H1：0， 2.计算检验统计量 3. 确定P值，作出推断结论,七、标准化回归系数,测量的量纲与无量纲化处理以标准差为计算单位，得到标准化回归系数，所以标准化回归系数是鉴别自变量作用大小的参数，但这种鉴别只能限于现有方程内各自变量之间的比较，换一个回归方程（增减变量）就不一定了。,八、回归预测的区间估计,总体回归方程估计与个别案例估计 P45-49.（计算较为繁琐，暂且忽略）,九、多重共性线及其排除,1、多重共线性的

14、含义：自变量之间相互影响，导致因果关系不明确，回归方程不稳定、不确切。（P49-50）影响：回归系数不稳定；回归不能反映自变量的独立作用新增变量的偏确定系数模糊；回归方程的预测不可靠。,2、多重共线性的检验；方程确定系数很高，但自变量回归系数不显著；各自变量之间的相关系数很高；自变量之间存在因果线性关系；自变量可删除性较大（删除对方程解释力影响较小）；方程确定系数高，但各自变量的偏确定系数很小。程序操作检验：tolerance VIF,Tolerance：容限度，是指某一自变量在排除其他自变量对方程的回归贡献后所得到的余差的比例，即该自变量的边际解释能力。统计上以Toler

15、ance10的时候，判断为存在共线性。演示,十、虚拟变量的应用,虚拟变量的关键在于把不可加减的数据转换为“加减有意义”的变量：例如：性别，令男=1，女=0； 1的个数表示男性占全部样本的比例；比例是一个数值型变量。虚拟变量回归系数的意义：P57-61.,虚拟变量的操作,原变量为二分的直接用recode 原变量转换多分（文化程度）需要用赋值法： 1=文盲 2=小学 3=初中 4=高中 5=大学,参照项：原变量第一项虚拟项： DE2=1,其他DEi=0 DE3=1,其他DEi=0 DE4=1,其他DEi=0 DE5=1,其他DEi=0 具体操作可用computer；也可以用recode into different variable 演示赋值、回归,作业,作业1.回顾本章知识，并重点理解回归方程的建立原理、过程、意义。作业2、将教材上的例2-1、2-2、2-7的数据输入EXCEL，然后用SPSS转入，并检验自己操作的回归结果是否与教材讲解一致。,

展开阅读全文