第十二章 相关与回归分析 社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来第一节 变量之间的相互关系1.相关程度与方向从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度就线性相关来说,当=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0<<1时,表现为不完全相关但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r=0的情况。
当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向所谓正相关关系是指一个变量的值增加时,另一变量的值也增加而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了2.因果关系除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系:(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量因果关系是一种非对称关系(asymmetrical relationship),这时只是自变量影响因变量,因变量不会反过来影响自变量如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetrical relationship)。
第二节 定类变量的相关分析1.列联表列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表2×2列联表,是最简单的交互分类表,r ×c频数分布列联表则是一般形式条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)在相对频数分布列联表中,各数据为各分类出现的相对频数(或者频率)将频数化成相对频数有两种做法:①如果= ,我们得到的是联合分布的列联表,此时也可以称为联合频率;②如果= 或者= ,我们得到的是关于X或者关于Y的相对频数的条件分布,此时也可以称为条件频率通过列联表研究定类变量之间的关联性,实际上是通过相对频数条件分布的比较进行的如果不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同 2.削减误差比例在社会统计中,表达相关关系的强弱,削减误差比例PRE(Proportionate Reductionin Error)的概念是非常有价值的。
削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量其中关系密切者,在由一变量预测另一变量时.其盲目性必然较关系不密切者为小因此,变量间的相关程度,可以用不知Y与X有关系时预测Y的误差E0,减去知道Y与X有关系时预测Y的误差E1,再将其化为比例来度量将削减误差比例记为PRE,得 PRE = 削减误差比例PRE适用于各测量层次的变量,但公式中E1、E2的具体定义,不仅对不同测量层次的变量有所不同,而且对同一测量层次的变量也有所不同系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数 3.系数(1)对称的系数(假设X是自变量,Y是因变量) (2)不对称的系数(假设X是自变量,Y是因变量) 系数有PRE意义,其统计值域是[0,1]系数的缺点是比较粗略,不够灵敏,因为它以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。
另外,如果众数频数集中在条件频数分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性 3.系数 系数的统计值域是[0,1],其特点是在计算时考虑所有的边际频数和条件频数先求出不知X,预测Y时全部误差E0;然后求出知道X,以X预测Y时的全部误差E1;最后求出消减误差比例作为其相关系数值公式是 = 系数有PRE意义,它比系数灵敏 第三节 定序变量的相关分析如果变量不仅可以区分类,而且可排出序(或秩),那么我们就得面对定序变量的相关分析了定序变量是只能排列高低次序、而无法确定其精确数量的变量故在分析定序变量的X与Y相关时,只能考虑X与Y两变量变化的顺序是否一致及其等级之间的差距,并以此来求算两变量相关关系之相关系数 1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma系数,肯得尔系数、系数等所以我们在讨论这几种相关系数之前,先要掌握这三个概念 (1)同序对 在观察X序列时如果我们看到<,在Y序列中看到的是<,则称这一配对是同序对。
同序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等同序对的总数用符号表示 (2)异序对 在观察X序列时如果我们看到<,在Y序列中看到的是>,则称这一配对是异序对同样,异序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等异序对的总数用符号表示3)同分对 如果在X序列中,我们观察到=,则这个配对为X同分对;X同分对的总数用符号表示如果在Y序列中,我们观察到=,则称这个配对为Y同分对,Y同分对的总数用符号表示如果我们观察到=时,也观察到=,则称这两个配对为X与Y同分对,以代表对于列联表的资料,计算同序对,要用“右下余子式”法;计算异序对,要用 “左下余子式”法五种不同配对的总的数目是 2.Gamma系数Gamma系数适用于测量两对称的定序变项的相关系数,计算公式是 Gamma系数同样具有削减误差比例PRE性质 3.肯德尔等级相关系数对于求等级相关系数,统计学家肯德尔(Kendall)提出了多种方案:(1) 系数; (2) 系数;(3) 系数4. 萨默斯(d系数)与G系数、系数、系数不同,系数的值依赖于将哪一个变量作为自变量,哪一个变量作为因变量,是一种不对称测量。
具体地说, 测量,用于以X预测Y;测量,用于以Y预测X两者的值域是[–1,1],公式是 5. 斯皮尔曼等级相关系数 第一位推导等级之间相关系数的人是英国心理学家查尔斯·斯皮尔曼他创造的一个等级相关的公式,可以用来计算两个定序变量之间的相关程度斯皮尔曼系数通常以代表,即 6.肯德尔和谐系数() 前面我们谈的都是对双变量求等级相关系数对于多变量求等级相关系数,肯德尔运用数理分析方法,提出了一个计算公式 第四节 定距变量的相关分析两个定距变量之间的相关测量,最常用的就是所谓积差系数.它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示而在本章一开头,关于相关程度与方向,我们谈到了定距—定距变量线性相关的问题其实,积差系数表达的是两定距变量之间的线性相关关系。
不仅如此,我们根据两变量之间的这种线性关系,可以进一步建立代数公式,以一个自变量X的值去预测一个因变量Y的值,这就是下一节讲的回归分析1.相关表和相关图在社会统计学中,由于变量之间的测量层次不同,研究相关关系的方法也有所不同相关表是在定距测量的层次上,反映两变量之间对应关系的数据表,它是积差系数计算的依据将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X和Y之间的相互关系,即得相关图相关图又称散点图如果数据足够多,从散点图上可以直观地看出两变量之间存在着何种相关关系2.积差系数的导出和计算 皮尔逊相关系数用来测量两个定距变量相关强度和方向,即 r= 不难看出,在r系数的计算公式中,变量X和Y是对等关系引入协方差,积差系数又可以表达为 r= 不难看出,积差系数是协方差与两个随机变量X、Y的标准差乘积的比率实际计算时,一般采用以下简化 r= 3.积差系数的性质(1)皮尔逊相关系数是线性相关系数 (2) r的取值在-1和-1之间。
绝对值越大,相关程度越高;绝对值越小,相关程度越小3)皮尔逊相关系数具有PRE性质,但这要通过r2加以反映4)积差系数不解释两变量间的因果关系5) r公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值第五节 回归分析积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或通过已知变量精确地预测未知变量,就要进行回归分析 1.线性回归线性回归分析,一般是先依据相关表做出散点图,直观地估计X和Y关联性如果两变量的确呈现出一定的线性相关趋势,便可以设所要求的回归直线方程为 = 运用最小平方法可得 = =-=- 在回归方程中,b有十分重要的意义,被称为回归系数b值的大小,反映了X对Y有多大的影响,即b值就是当X增加一个单位时Y值的增量b的绝对值越大,表示X对Y的影响也越大,等于零则表示X对Y没有影响也就是说,b与积差系数一样也可以反映X和Y之间的关系强度。