社会统计学张彦第十二章节

资源描述

《社会统计学张彦第十二章节》由会员分享，可在线阅读，更多相关《社会统计学张彦第十二章节（92页珍藏版）》请在金锄头文库上搜索。

1、第十二章相关与回归分析,第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析第五节回归分析,社会上，许多现象之间也都有相互联系，例如：身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中，它们之间联系的程度和性质也各不相同。本书第十章提出了两总体的检验及估计的问题，这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是，客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去，不仅要对相关关系的存在给出判断，更要对相关关系的强度给出测量，同时要披露两变量间的因果

2、联系，其内容分为相关分析和回归分析这两个大的方面。,第一节变量之间的相互关系,1. 相关程度完全相关，指变量之间为函数关系；完全不相关指变量之间不存在任何依存关系，彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。由于数学手段上的局限性，统计学探讨的最多的是定距定距变量间能近似地表现为一条直线的线性相关。在统计中，对于线性相关，采用相关系数（记作r）这一指标来量度相关关系程度或强度。就线性相关来说，当r l 时，表示为完全相关；当r =0时，表现为无相关或零相关；当0 r 1时，表现为不完全相关。,2. 相关方向：正相关和负相关所谓正相关关系是指一个变量的值增加

3、时，另一变量的值也增加。例如，受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时，另一变量的值却减少。例如，受教育水平越高，理想子女数目越少。要强调的是，只有定序以上测量层次的变量才分析相关方向，因为只有这些变量的值有高低或多少之分。至于定类变量，由于变量的值并无大小、高低之分，故定类变量与其他变量相关时就没有正负方向了。,3. 因果关系与对称关系因果关系中两个变量有自变量（independent Variable)和因变量(dependent Variable)之分：（1）两个变量有共变关系；（2）因变量的变化是由自变量的变化引起的；（3）两个

4、变量的产生和变化有明确的时间顺序，前者称为自变量，后者称为因变量。表现为对称关系的相关关系，互为根据，不能区分自变量和因变量，或者说自变量和因变量可以根据研究目的任意选定，例如身高和体重之间的关系。,4. 单相关和复相关从变量的多少上看，单相关只涉及两个变量，亦称二元相关；三个或三个以上变量之间的关系称为复相关，亦称多元相关。 5、直线相关和曲线相关从变量变化的形式上看，如果关系近似地表现为一条直线，称为直线相关或线性相关；如果关系近似地表现为一条曲线，则称为曲线相关或称为非线性相关。由于数学手段的局限性，我们以学习线性相关为主。在统计学中，通过分段处理线性相关也可以用

5、于处理曲线相关。,第二节定类变量的相关分析,本节内容： 1. 列联表 2. 消减误差比例 3. 系数 4. 系数,1. 列联表列联表，是按品质标志把两个变量的频数分布进行交互分类，由于表内的每一个频数都需同时满足两个变量的要求，所以列联表又称条件频数表。例如，某区调查了357名选民，考察受教育程度与投票行为之间的关系，将所得资料作成下表，便是一种关于频数的列联表。,22频数分布列联表的一般形式,习惯上把因变量Y放在表侧，把自变量X放在表头。 22列联表是最简单的交互分类表。 rc列联表 r(row)、c(column),rc频数分布列联表的一般形式,两个边际分布：,条件频数表中

6、各频数因基数不同不便作直接比较，因此有必要将频数化成相对频数，使基数标准化。这样，我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是rc相对频数分布列联表的一般形式。,rc相对频数分布列联表的一般形式,在相对频数分布列联表中，各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法：相对频数联合分布两个边际分布或相对频数条件分布或,rc相对频数联合分布列联表,控制X，Y相对频数条件分布列联表,控制Y，X相对频数条件分布列联表,例A1试把下表所示的频数分布列联表，转化为自变量受到控制的相对频数条件分布列联表，并加以相关分析。,从

7、上表可知，受过大学以上教育的被调查者绝大多数（占95.8%）是投票的，受教育程度在大学以下的被调查者虽多数也参与投票（占67.9%）,但后者参与投票的百分比远小于前者；前者只有4.2%弃权，而后者则有32.1% 弃权。两相比较可知，受教育程度不同，参与投票的行为不同，因此两个变量是相关的。,例A2试把下表所示的频数分布列联表，转化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表，并加以相关分析。,上表显示，大学以上文化程度和大学以下文化程度同样各有60%的人参与投票，40%的人弃权，并没有因为受教育程度不同，而使参与投票的行为有所不同。因此，此时的两个变量是不

8、相关的，或者说是独立的。我们不难发现，此时反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票，40%的人弃权。,上表显示，当两个变量不相关时有。如0.532 0.40=0.213。,例B某社区调查了120名市民，考察性别与对吸烟态度之间的关系，试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表，并进行相关分析。性别与对吸烟的态度,相对频数联合分布列联表,相对频数条件分布列联表,2675名双亲和他们10071个子女的智力的关系(%)(相对频数条件分布列联表),通过列联表研究定类变量之间的关联性，这实际上是通过相对频数条件分布的比较进行的。如果对不同

9、的X，Y的相对频数条件分布不同，且和Y的相对频数边际分布不同，则两变量之间是相关的。而如果变量间是相互独立的话，必然存在着Y的相对频数条件分布相同，且和它的相对频数边际分布相同。后者用数学式表示就是或者,2. 消减误差比例 PRE （Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论，可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联性给出判断，肯定没有用量化指标表达来得好。所以，下面我们将关注于如何用统计方法，使相关关系的强弱可以通过某些简单的系数明确地表达出来。在社会统计中，表达相关关系的强弱，消减误差比例

10、的概念是非常有价值的。消减误差比例的原理是，如果两变量间存在着一定的关联性，那么知道这种关联性，必然有助于我们通过一个变量去预测另一变量。其中关系密切者，在由一变量预测另一变量时，盲目性必然较关系不密切者为小。,PRE：用不知道Y与X有关系时预测Y的全部误差E1，减去知道Y与X有关系时预测Y的联系误差E2，再将其化为比例来度量 PRE的取值范围是 0PREl 消减误差比例PRE适用于各测量层次的变量，系数和系数便是在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数。,PRE=（56-28）/56=0.5,3. 系数在定类尺度上测量集中趋势只能用众数。系数就是利用此性质

11、来构造相关系数的。（1）不对称的系数,例对下表所示资料，用系数反映性别与收入高低的相关关系。,（2）对称的系数,例研究工作类别与工作价值的关系，工作类别可分为三类：工人、技术人员、管理/行政人员；工作价值也可分为三类：以收入/福利为最重要的职业选择标准的称为经济取向型，以工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型，以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下表所示资料，用系数反映工作类别与工作价值的相关关系。,职工的工作种类与工作价值,性质：（1）01 （2）具有PRE意义。（3）对称与不对称情况下，有不同的公式。（4）以众

12、数作为预测的准则，对条件频数分布列联表中众数频数以外的条件频数不予理会。（5）如果众数频数集中在条件频数分布列联表的同一行时，=0，从而无法显示两变量之间的相关性。,4.系数系数的统计值域是0，1，其特点是在计算时考虑所有的边际频数和条件频数。注意：当众数很突出且众数分布不在同一行，同一列时，用系数较好；但当众数不突出时，用系数更好；若众数集中在某一行或某一列，一定用系数。,例对下表所示资料，用系数反映性别与收入高低的相关关系，并对系数的PRE意义加以解释。,练习：调查100名青年人与其知心朋友的志愿，条件次数分布如下：计算知心朋友的志愿与自己志愿之间的相关关系

13、，并提出研究结论。,第三节定序变量的相关分析,定序变量只能排列高低次序，因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以此来计算两变量的相关系数。 1. 同序对、异序对和同分对 2. Gamma等级相关系数 3. 肯德尔等级相关系数 4. 萨默斯系数（d系数） 5. Spearman等级相关系数 6. 肯德尔和谐系数,1. 同序对、异序对、同分对社会学研究常用的两定序变量的相关测量法，有一类是以同序对、异序对、同分对的概念为基础的，如Gamma系数、肯德尔系数、d系数等。所以我们在讨论这几种相关系数之前，先来了解这三个概念。,在定序相关测量中，首先要搞清楚“次

14、序对（pair）”的概念。例如，假设研究员工的工作满足感与归属感的关系，将工作满足感从低到高，分为低（1）、中（2）和高（3）三个级别，归属感也从低到高分为低（1）、中（2）和高（3）三个级别。下表列示的是5名被访者A、B、C、D、E的情况。,同序对参见上表（注意，为了容易识别各种次序对，该表已先将被访者按定序变量X由低到高作了排列），在观察X 序列时如果我们看到Xi Xj ，在Y 序列中看到的是Yi Yj，则称这一配对是同序对。同序对只要求X变化方向和Y 变化方向相同，并不要求X 变化大小和Y 变化大小相等。同序对的总数用符号ns表示。异序对见上表，在观察X序列时如果我们看到

15、Xi Xj ，在Y 序列中看到的是Yi Yj，则称这一配对是异序对。同样，异序对只要求X变化方向和Y变化方向相同，并不要求X变化大小和Y变化大小相等。同序对的总数用符号nd表示。,同分对如果在X序列中，我们观察到Xi Xj (此时在Y序列中无Yi Yj)，则这个配对仅是X方向上而非Y 方向上的同分对；X 的这种同分对用符号nx表示。如果在Y 序列中，我们观察到Yi Yj(此时在X序列中无Xi Xj )，则这个配对仅是Y 方向上而非X方向上的同分对；Y 的这种同分对用符号ny表示。如果我们观察到 Xi Xj时，也观察到Yi Yj ，则称这两个配对为X与Y 同分对，以符号nxy表

16、示。X 同分对的总数用符号Tx表示， Tx nx + nxy ；Y 同分对的总数用符号Ty表示, Ty ny + nxy 。 n个单位两两配对，总对数 ns + nd + nx + ny + nxy,计算Gamma系数，肯得尔系数、 d系数等，我们面对的经常是两定序变量已形成列联表的资料，所以对我们来说很重要的是要学会定序变量列联表中这五种“次序对”的计算和识别。同序对：“右下余子式”法异序对：“左下余子式”法,工作满足感与归属感,2. Gamma系数性质：（1）取值范围-1，1 （2）具有PRE意义（3）属对称相关测量。（4）不考虑同分对。,例：在某市200户中调查，看住户人口密度与婆媳冲突是否有关，交互分类后分布如下，计算G相关系数并提出研究结论。,3. 肯德尔等级相关系数 (1)Tau-a 系数适用于不存在任何同分对的情况。,某市有12

展开阅读全文