多变量描述统计分析——交叉表分析法

上传人:蜀歌 文档编号:147260294 上传时间:2020-10-08 格式:PDF 页数:5 大小:90.76KB
返回 下载 相关 举报
多变量描述统计分析——交叉表分析法_第1页
第1页 / 共5页
多变量描述统计分析——交叉表分析法_第2页
第2页 / 共5页
多变量描述统计分析——交叉表分析法_第3页
第3页 / 共5页
多变量描述统计分析——交叉表分析法_第4页
第4页 / 共5页
多变量描述统计分析——交叉表分析法_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《多变量描述统计分析——交叉表分析法》由会员分享,可在线阅读,更多相关《多变量描述统计分析——交叉表分析法(5页珍藏版)》请在金锄头文库上搜索。

1、 1 多变量描述统计分析 多变量描述统计分析 交叉表分析法 一、交叉表分析法的概念 交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量 的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的 离散变量的联合分布。当交叉表只涉及两个定类变量时,交叉表又叫做相依表。 交叉列联表分析易于理解, 便于解释, 操作简单却可以解释比较复杂的现象, 因而在市场调查中应用非常广泛。 频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。交叉表法 的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。 下面是一个描述交叉表法应用的例子。 某保险公司对影响保户开车事

2、故率的因素进行调研,并对各种因素进行了交 叉表分析。 表 1 驾驶员的事故率 类 别 比率,% 无事故 61 至少有一次事故 39 样本总数,人 17800 从初始表 1 中可以看出,有 61%的保险户在开车过程中从未出现过事故。 然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。这 样就出现了二维交叉表 2。 表 2 男女驾驶员的事故率 类 别 男,% 女,% 无事故 56 66 至少有一次事故 44 34 样本总数,人 9320 8480 这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要 高。但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因

3、 为他们驾驶的路程较长。这样就引出第三个因素驾驶距离,于是出现了三维交 叉表 3。 表 3 不同驾驶距离下的事故率 类 别 男,% 女,% 驾驶距离 1 万公里 1 万公里 1 万公里 无事故 51 73 50 73 至少有一次事 故 49 27 50 27 样本总数,人7170 2150 2430 6050 结果表明,男士驾驶者的高事故率是由于他们的驾驶距离较女士长, 但并没 有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离 成正比,而与驾驶者的性别无关。 二、两变量交叉列联表分析 二、两变量交叉列联表分析 例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度

4、之间 2 的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。如表 4 所示。 表 4 居住时间与对百货商场的熟悉程度的交叉列联分析(频数) 表 4 居住时间与对百货商场的熟悉程度的交叉列联分析(频数) 居住时间 熟悉程度 13 年以下 13 年30 年 30 年以上 合计 不熟悉 熟悉 45 52 34 53 55 27 134 132 合计 97 87 82 266 那么,到底居住时间与对商场的熟悉程度有没有关系呢?由表 4 可见, 居住时 间低于 30 年的居民比居住时间在 30 年以上的居民似乎更熟悉百货商场。进一步 计算出百分比,则可以看得更直观一些。见表 5。 表 5

5、居住时间与对百货商场的熟悉程度的交叉列联分析(%) 表 5 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 居住时间 熟悉程度 13 年以下 13 年30 年 30 年以上 不熟悉 熟悉 46.4 53.6 39.1 60.9 67.1 32.9 合计 100.0 100.0 100.0 行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一 般的规则是,在自变量的方向上,对因变量计算百分比。 行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一 般的规则是,在自变量的方向上,对因变量计算百分比。 以表 5 为例,居住时间为自变量,对商场的熟悉程度为因变量,因而可

6、以对 各居住时间分别计算熟悉程度的百分比。由表 5 可见,53.6%的居住时间低于 13 年的人和 60.9%的居住时间在 13 年30 年的人都熟悉该商店,而只有 32.9%的居 住时间在 30 年以上的人熟悉该商店。 看来, 同样住在该地区的人, 居住时间越长, 对购物环境反而更不熟悉。这个结论是有一定道理的,在一个地方居住很长时间 的人一般相对来说更没有动力去熟悉该商场。 如果我们在因变量的方向上对自变量计算百分比(如表 6 所示),则显然没意 义。 表 6 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 表 6 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 居住时间 熟悉程度

7、 13 年以下 13 年30 年 30 年以上 行合计 不熟悉 熟悉 33.6 39.4 25.4 40.1 41.0 20.5 100.0 100.0 表 6 暗示,对当地商场不熟悉会影响居民在该地的居住时间,这显然是不合 理的。但是,居住时间与对百货商场的熟悉程度之间的联系可能受第三变量的影 响,例如年龄。居住时间越长的人可能年龄越大。尽管分析结果表明年龄在此不 是影响因素,但由此可见需要检查第三因素的影响。 三、三变量的交叉列联表分析 三、三变量的交叉列联表分析 引入第三变量后再进行交叉列联分析,则可能出现以下四种结果: (1)剔除外部环境的影响,使原先两变量间的关系更单纯。 (1)剔除

8、外部环境的影响,使原先两变量间的关系更单纯。例如,在表 7 中, 仅分析婚姻状况和衣服支出水平这两个变量时,从数字上看未婚者在衣服支出方 面比已婚者更高一些。但引入变量性别以后,发现对于男性来说,已婚者与未婚 者在衣服支出方面没有显著差异,但对于女性未婚者与已婚者,在衣服支出方面 的差异则很明显。见表 8。 3 表 7 婚姻状况对衣服支出水平的交叉列联分析(%) 表 7 婚姻状况对衣服支出水平的交叉列联分析(%) 婚姻状况 衣服支出水平 已婚 未婚 高 低 31% 69% 52% 48% 合计 100% 100% 个案数 700 300 表 8 婚姻状况和性别对衣服支出水平的交叉列联分析(%)

9、 表 8 婚姻状况和性别对衣服支出水平的交叉列联分析(%) 性别 男 女 婚姻状况 婚姻状况 衣服支出水平 已婚 未婚 已婚 未婚 高 低 35% 65% 40% 60% 25% 75% 60% 40% 合计 100% 100% 100% 100% 个案数 400 120 300 180 (2)否定原先两变量间的关系。 (2)否定原先两变量间的关系。例如,根据表 9 可见,仅对受教育水平和私家 车 的拥有情况进行交叉列联分析,发现文化程度越高的人拥有私家车的比例越高。 但引入收 人变量后发现收入才是影响拥有私家车的真正原因,对于低收入者,不论文化程 度高低在 购买私家车方面没有差异。见表 10

10、。 表 9 受教育水平对私家车拥有状况的交叉列联分析(%) 表 9 受教育水平对私家车拥有状况的交叉列联分析(%) 受教育水平 私家车 本科及以上 本科以下 有 没有 32% 68% 21% 79% 合计 100% 100% 个案数 250 750 表 10 受教育水平和收入对私家车拥有状况的交叉列联分析(%) 表 10 受教育水平和收入对私家车拥有状况的交叉列联分析(%) 收入 低 高 受教育水平 受教育水平 私家车 本科及以上 本科以下 本科及以上 本科以下 有 没有 20% 80% 20% 80% 40% 60% 40% 60% 合计 100% 100% 100% 100% 个案数 10

11、0 700 150 50 (3)尽管原先观察两变量间没有关系,第三变量的引入可能揭示了它们之间 的一些联系。 (3)尽管原先观察两变量间没有关系,第三变量的引入可能揭示了它们之间 的一些联系。由表 11 可见,仅对年龄和出国旅行的欲望进行交叉列联分析,发现 两者之间没有关系。但引入性别变量后,发现对于男性,年龄越大,出国旅游的 欲望越强;而对于女性正好相反,年龄越小,出国欲望越强。见表 12。 4 表 11 年龄对是否希望出国旅行的交叉列联分析 (%) 表 11 年龄对是否希望出国旅行的交叉列联分析 (%) 年龄 是否希望出国旅行 45 岁以下 45 岁及以上 是 不是 50% 50% 50%

12、 50% 合计 100% 100% 个案数 500 500 表 12 年龄和性别对是否希望出国旅行的交叉列联分析 (%) 表 12 年龄和性别对是否希望出国旅行的交叉列联分析 (%) 性别 男 女 年龄 年龄 是否希望 出国旅行 45 岁以下 45 岁及以上 45 岁以下 45 岁及以上 是 不是 40% 60% 60% 40% 65% 35% 35% 65% 合计 100% 100% 100% 100% 个案数 300 300 200 200 (4)没有影响(4)没有影响。以表 13 为例,引入收入变量后,家庭规模与是否经常吃快餐 之间仍旧没有关系。见表 14。 表 13 家庭规模对是否经常

13、吃快餐的交叉列联分析 (%) 表 13 家庭规模对是否经常吃快餐的交叉列联分析 (%) 家庭规模 是否经常吃快餐 小 大 是 不是 65% 35% 65% 35% 合计 100% 100% 个案数 500 500 表 14 家庭收入和家庭规模对是否经常吃快餐的交叉列联分析 (%) 表 14 家庭收入和家庭规模对是否经常吃快餐的交叉列联分析 (%) 收入 低 高 家庭规模 家庭规模 是否经常吃快 餐 小 大 小 大 是 不是 65% 35% 65% 35% 65% 35% 65% 35% 合计 100% 100% 100% 100% 个案数 500 500 500 500 四、交叉表分析法的优缺

14、点 四、交叉表分析法的优缺点 交叉表被广泛用于商业市场调研,因为它有如下优点: 交叉表的分析结果很容易直观地被理解; 明了的解释加强了调研结果与经理行为的联系; 一系列交叉表比多变量分析更有助于理解复杂的问题; 交叉表可减弱空格问题,这在多元离散变量分析中更突出; 交叉表将复杂的数据简单化。 5 交叉表有两点局限。其一,如果需要考虑多个变量,样本容量就应相当大; 其二,很难确保对所有的相关变量进行了分析,如果变量选择不适当,就会得出 错误的结论。即使变量选择的正确,研究者也许会因使用不当而无法找到真正的 关系。 能否制作一个好的交叉表,取决于研究者选择关键变量以及根据这些变量组 成交叉表的能力。另外,用于交叉表分析的变量的类型和数量随研究的目的、性 质而变化。 在描述性调研中,研究者有较大的自主权来选择这些变量。 在探索性研究中,研究者凭主观意识选择所有的用于交叉表的变量。 交叉表分析只能用于有数据基础的变量分析,它描述的是变量间的关系,但 不一定是因果关系。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号