社会统计学张彦第十二章节

上传人:E**** 文档编号:91101650 上传时间:2019-06-22 格式:PPT 页数:92 大小:1.66MB
返回 下载 相关 举报
社会统计学张彦第十二章节_第1页
第1页 / 共92页
社会统计学张彦第十二章节_第2页
第2页 / 共92页
社会统计学张彦第十二章节_第3页
第3页 / 共92页
社会统计学张彦第十二章节_第4页
第4页 / 共92页
社会统计学张彦第十二章节_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《社会统计学张彦第十二章节》由会员分享,可在线阅读,更多相关《社会统计学张彦第十二章节(92页珍藏版)》请在金锄头文库上搜索。

1、第十二章 相关与回归分析,第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析 第五节 回归分析,社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果

2、联系,其内容分为相关分析和回归分析这两个大的方面。,第一节 变量之间的相互关系,1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变 量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。 由于数学手段上的局限性,统计学探讨的最多的是定 距定距变量间能近似地表现为一条直线的线性相关。在 统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0 r 1时,表现为不完全相关。,2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加

3、时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。,3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个

4、变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。,4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5、直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用

5、于处理曲线相 关。,第二节 定类变量的相关分析,本节内容: 1. 列联表 2. 消减误差比例 3. 系数 4. 系数,1. 列联表 列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。,22频数分布列联表的一般形式,习惯上把因变量Y放在表侧,把自变量X放在表头。 22列联表是最简单的交互分类表。 rc列联表 r(row)、c(column),rc频数分布列联表的一般形式,两个边际分布:,条件频数表中

6、各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是rc相对频数分布列联表的一般形式。,rc相对频数分布列联表的一般形式,在相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法: 相对频数联合分布 两个边际分布 或 相对频数条件分布 或,rc相对频数联合分布列联表,控制X,Y相对频数条件分布列联表,控制Y,X相对频数条件分布列联表,例A1试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。,从

7、上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。,例A2试把下表所示的频数分布列联表,转 化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。,上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不

8、相关的,或者说是独立的。我们不难发现,此时 反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。,上表显示,当两个变量不相关时有 。 如0.532 0.40=0.213。,例B某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。 性别与对吸烟的态度,相对频数联合分布列联表,相对频数条件分布列联表,2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表),通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同

9、的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者,2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比 例

10、的概念是非常有价值的。消减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。,PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量 PRE的取值范围是 0PREl 消减误差比例PRE适用于各测量层次的变量,系数和系数便是在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数。,PRE=(56-28)/56=0.5,3. 系数 在定类尺度上测量集中趋势只能用众数。 系数就是利用此性质

11、来构造相关系数的。 (1)不对称的系数,例 对下表所示资料,用系数反映性别与收 入高低的相关关系。,(2)对称的系数,例 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用系数反映工作类别与工作价值 的相关关系 。,职工的工作种类与工作价值,性质: (1)01 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众

12、数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,=0,从而无法显示两变量之间 的相关性。,4.系数 系数的统计值域是0,1,其特点是在计 算时考虑所有的边际频数和条件频数 。 注意:当众数很突出且众数分布不在同一行,同一 列时,用系数较好;但当众数不突出时,用系数更 好;若众数集中在某一行或某一列,一定用系数。,例 对下表所示资料,用系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。,练习: 调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系

13、,并提出研究结论。,第三节 定序变量的相关分析,定序变量只能排列高低次序,因而在分析时只能考虑 两变量变化的顺序是否一致及其等级之间的差距。以此来 计算两变量的相关系数。 1. 同序对、异序对和同分对 2. Gamma等级相关系数 3. 肯德尔等级相关系数 4. 萨默斯系数(d系数) 5. Spearman等级相关系数 6. 肯德尔和谐系数,1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量 法,有一类是以同序对、异序对、同分对的概念 为基础的,如Gamma系数、肯德尔系数、d系数 等。所以我们在讨论这几种相关系数之前,先来 了解这三个概念。,在定序相关测量中,首先要搞清楚“次

14、序对(pair)”的概念。例如,假设 研究员工的工作满足感与归属感的关系,将工作满足感从低到高,分为低 (1)、中(2)和高(3)三个级别,归属感也从低到高分为低(1)、中 (2)和高(3)三个级别。下表列示的是5名被访者A、B、C、D、E的情况。,同序对 参见上表(注意,为了容易识别各种次序对,该表已 先将被访者按定序变量X由低到高作了排列),在观察X 序列时如果我们看到Xi Xj ,在Y 序列中看到的是Yi Yj,则称这一配对是同序对。同序对只要求X变化方向和Y 变化方向相同,并不要求X 变化大小和Y 变化大小相等。 同序对的总数用符号ns表示。 异序对 见上表,在观察X序列时如果我们看到

15、Xi Xj ,在Y 序列中看到的是Yi Yj,则称这一配对是异序对。同样, 异序对只要求X变化方向和Y变化方向相同,并不要求X变 化大小和Y变化大小相等。同序对的总数用符号nd表示。,同分对 如果在X序列中,我们观察到Xi Xj (此时在Y序列中 无Yi Yj),则这个配对仅是X方向上而非Y 方向上的同分 对;X 的这种同分对用符号nx表示。如果在Y 序列中,我 们观察到Yi Yj(此时在X序列中无Xi Xj ),则这个配对 仅是Y 方向上而非X方向上的同分对;Y 的这种同分对用符 号ny表示。如果我们观察到 Xi Xj时,也观察到Yi Yj , 则称这两个配对为X与Y 同分对,以符号nxy表

16、示。X 同分对 的总数用符号Tx表示, Tx nx + nxy ;Y 同分对的总数用 符号Ty表示, Ty ny + nxy 。 n个单位两两配对,总对数 ns + nd + nx + ny + nxy,计算Gamma系数,肯得尔系数、 d系 数等,我们面对的经常是两定序变量已形 成列联表的资料,所以对我们来说很重要 的是要学会定序变量列联表中这五种“次序 对”的计算和识别。 同序对:“右下余子式”法 异序对:“左下余子式”法,工作满足感与归属感,2. Gamma系数 性质: (1)取值范围-1,1 (2)具有PRE意义 (3)属对称相关测量。 (4)不考虑同分对。,例:在某市200户中调查,看住户人口密 度与婆媳冲突是否有关,交互分类后分布如 下,计算G相关系数并提出研究结论。,3. 肯德尔等级相关系数 (1)Tau-a 系数 适用于不存在任何同分对的情况。,某市有12

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号