从问卷调查数据中可以得到什么_吴喜之

资源描述

《从问卷调查数据中可以得到什么_吴喜之》由会员分享，可在线阅读，更多相关《从问卷调查数据中可以得到什么_吴喜之（4页珍藏版）》请在金锄头文库上搜索。

1、从问卷调查数据中可以得到什么?吴喜之骆鹏罗玉波ABSTRACTThis study describes the existing problems and mistakes that may cause misunderstanding or even misleading in current analyses of questionnaire survey data and suggests methods to do exploratory dataanalyses and select related variables for further inference.关键词: 问卷

2、调查;数据; 抽样设计在许多实际或研究领域中, 进行问卷调查是收集信息所不可缺少的重要手段。然而, 多数调查报告仅仅利用了调查数据中的一小部分信息, 而把大多数信息浪费掉了。调查者可能认为, 他们获取的部分信息已经满足了需要, 达到预期的目的。但是, 在写调查报告时, 人们应该思考以下的问题: 他们展示的各种比例是否合适?为了得到结论所选择的变量是否妥当? 分析所基于的假设是否满足? 是不是还有更好的分析工具来达到既定目标? 除了既定目标之外, 从该调查数据是否能够得到一些其他意想不到的收获? 本文试图对这类问题进行讨论, 并通过一个实际调查数据加以说明。本文主要涉及问卷调查数据中的单选问题的

3、数据分析。这里不讨论比较简单的只有一两个问题的诸如民意测验那样的调查, 也不讨论问卷中的自由回答问题和多选问题。当然, 多选问题也可以转换成单选问题来提出或者分析。本文所引用的调查例子是在浙江进行的5金融机构员工思想动态调查问卷6数据( 后面简称/ 金融员工调查0数据) 。问卷及抽样方案的设计是抽样调查的主要内容之一, 但本文仅讨论调查数据的分析部分。一、问题的提出抽样调查在我国起步较晚, 但发展迅速。在我们周围, 进行着各种形式的调查。但是许多兴师动众、耗费巨资的大型问卷调查的最后报告却主要由许多描述性的各种比例所组成; 这些比例用各种图表显示, 给人以深刻印象。这些大量展示的比例实际上

4、是更深入分析的素材或出发点, 而不是结论或决策。因为很难想象有多少决策者有耐心从头到尾阅读这种报告的全文。即使是这些在报告中占大量篇幅的比例, 也大多没有说明其可信程度。比如, 调查本身可能是在很大数目的人群中进行; 但结论中为得到某比例而用于分母范畴的人群却可能很小, 使得结论完全没有意义或代表性。许多调查报告中的绝大多数的比例都没有给出置信区间和置信度, 因此也没有任何说服力。其实人们更想知道的是各个因素之间的关系, 并且试图找到它们如何相互影响, 为今后决策找到令人信服的根据。有些调查报告利用了广义线性模型或多元分析方法来分析变量之间的关系, 这比仅仅展示描述性的比例要进一步。但如何选取

5、模型中的变量, 使得分析结果有说服力, 则是一个容易忽视但非常重要的课题。二、问卷调查数据的结构和特点一个问卷调查数据到底有什么性质, 这是在对数据利用现成软件分析模块进行分析之前必须了解的。11 比例中的垃圾由于比例是通常调查报告中包含最多的内容。我们首先来看到底一个问卷调查数据可以产生多少比例。一个问卷中的问题(变量) 越多、问题的可选择回答越多, 理论上所能够产生的比例就越多。当然, 并不一定所有的比例是我们所感兴趣的。但是, 在人们感兴趣的比例之中, 有许多可能是不显著的、无法说明的或者没有意义的。而在我们事先没有想到的比例中, 很可能会存在有价值的信息。以/ 金融员工调查0数据

6、为例。从表面上看, 该数据理论上可以产生大量的比例。先考虑以全部观测值数目作为分母的比例。如果允许每一个问题的每一个范畴(回答) 的观测值数目作为分子, 该数据理论上可产生 250个比例。一个这样的例子是/ 最关心的是个人收入的员612004 年第 8 期No. 8 2004统计研究Statistical Research该问卷有60个选择题, 其中有6 个是多选题。此外该问卷还有 6 个自由回答题。我们只选了 54 个单选题( 即每个问题从多个回答中选择一个) , 并且对于少数缺失数据进行了删除或填补。该数据一共有 990 个观测值( 即有效问卷数目) 。工占全体员工中的比例0。而如果以某一

7、问题的某个范畴(回答) 的观测值数目作为分母, 以分母和其他某范畴的交集的观测值数目作为分子, 理论上就可以产生122468个比例, 比如/ 在高级职称员工中认为首要改革的是经营制度的比例0等。如果分母由两个范畴的交观测值数目组成, 分子为其他范畴和分母的交观测数, 那么理论上可能出现的比例将近 1500 万个, 为 14998946 个。一个这样的例子为/ 51 岁以上女性员工想跳槽的比例0。如果在分母中采取更加复杂的范畴组合, 比例的数目还会变得更加庞大。下面研究一下, 这些众多的比例中究竟有多少是合理的。给出调查比例的同时提供置信区间和置信度是负责任的表现。因此, 我们从

8、总体比例的区间估计入手, 提出两个起码的尺度。首先, 通常对比例的区间估计都是使用大样本正态近似公式算出来的; 即P? zA P2P(1- P) n这里 P 为样本比例, n 为样本量( 即比例的分母), zA P 2满足5(zA P 2) = 1- A P2。首先, 要利用这个近似公式, 样本量必须足够大。一个近似地判断是否是大样本的方法是: 区间P? 3P(1- P) n必须完全包含在(0, 1)区间之内。这项标准是基于大家熟知的标准正态分布的性质。这不仅依赖于 n 的大小, 还依赖于比例 P 的大小。另一个尺度是基于通常调查所要求的误差范围是 P ? 3% 。众所周知, 在固定了置信区间

9、宽度(即误差范围) 之后, 置信度也就可以从数据算出来了。因此, 要对每项比例弄清其误差范围为 ? 3% 的置信度究竟是多少。如果置信度太小, 所得到的比例则没有什么意义。当然, 我们这里仅考虑简单抽样的情况(如我们的/ 金融员工调查0例子) 。在分析复杂抽样数据时, 则更容易产生没有意义的结果。对于以总观测值数目作为分母而一个范畴的观测数作为分子的比例由于比例的分母较大, 这些比例一般都没有大问题。在/ 金融员工调查0数据中的 250 个可能的理论比例中仅有 7个样本量不够大而无法给出基于正态近似得到的置信区间。其余的 243 个比例都可以通过正态近似得到置信度至少为 94% 的置信区间。如

10、果不以全部观测值为分母, 而以某一问题的某一范畴的观测值数目为分母, 以另外一个问题的某范畴和分母范畴的交的观测值数目为分子, 问题就复杂多了。在/ 金融员工调查0中, 如果不利用上面两个尺度, 满可以得出/ 在高级职称员工中认为首要改革的是经验制度的样本比例为 4219%0 这样的结论。然而, 计算其误差为? 3% 时的置信度才有 1217% 。再核对一下, 前面所提到的为正态近似所需要满足的大样本条件根本不能满足;连置信区间和置信度都无法算出。这种对于比例的推断是完全不可靠的, 也没有任何意义。根据计算, 在/ 金融员工调查0数据理论上可以产生的 122468 个比例中, 实际可用的只有

11、83664 个( 68131% ) , 有 30664 个( 6166% ) 不能使用正态近似来计算置信区间, 另外有 8160 个比例分母分子范畴之交为空集( 25102% ) 。那么在可以使用的83664个中的误差? 3% 的置信度又是怎样的情况呢? 其中 84% 以上比例的误差? 3% 的置信度都小于通常习惯的95% ; 置信度为 95% 以上的比例只有 13294 个, 占可用比例的 15189% , 占理论比例数量的 10185% 。而有 20%以上的置信度小于 50% 。图 1 给出了可以计算的 83664个比例的误差为? 3% 时的置信度的直方图。图 1/ 金融员工调查0数

12、据: 以某一问题的某一范畴的观测值数目为分母, 而以另外一个问题的某范畴和分母范畴的交的观测值为分子时可以用正态近似的 83664 个比例的误差为 ? 3% 的置信度的直方图现在考虑分母是两个范畴的交的观测数, 而分子为一个范畴和分母范畴交的观测数目的情况。那么在理论上可能出现的 14998946 个比例之中, 只有 4236996(28124% ) 个可以用正态近似计算置信区间, 有 1314769(8177% ) 个分子和分母的范畴之交为空集, 有 9447181(62199% ) 不能用正态近似计算置信区间。这个结果展示在下面的饼图之中。这里出现大量的空集是因为总的数据

13、量不够大, 使得许多搭配是空集。在后面关于由问卷各个问题所组成的列联表的讨论中还会遇到相对稀疏数据的现象。即使总观测值非常大, 只要问卷的问题多, 这种问题还是不可避免的。因此要有得不到预期(比例) 结果的思想准备。在可用的 4236996 个比例的误差? 3% 的置信度中只有79652个( 1188% ) 大于或等于 95% 。这和近一千五百万的总数比起来简直微不足道。绝大部分( 有 59149% 的比例)的置信度小于 50% 。这 4236996 个误差? 3% 的置信度由下面的直方图显示。62统计研究当然, 完全可以对比例做稍微费事的精确区间估计, 但并不是所有软件都自动支持这种计算。图

14、 2/ 金融员工调查0数据: 以两个范畴的交的观测数为分母, 而以另外某范畴与分母范畴的交的观测值为分子时可用的比例数目只是理论上的比例的 28 124%图 3/ 金融员工调查0数据: 以两个范畴的交的观测数为分母, 而以另外一个问题的某范畴与分母范畴的交的观测值为分子时可以用正态近似的误差为? 3% 的置信度的直方图; 显示出总体上很低的置信度综上所述, 在能够算出来的比例之中, 有很多无法计算置信区间; 而在可以用正态近似计算置信区间的比例之中,又有许多的置信度非常之低。因此, 在调查报告中对每个比例仅仅列出一个数字是很不负责的, 容易误导读者。笔者建议, 对于每个写入调查报告的比例, 都

15、应该在确认符合正态近似条件后计算并展示其置信区间和置信度。21 由问卷数据导出的列联表除了比例之外, 列联表也是问卷数据的主要展示形式和分析基础之一。一个由 n 个单选问题组成的调查数据理论上可以形成 2n- n- 1 个二维以上的列联表。就/ 金融员工调查0数据而言; 它理论上可以组成 11801441016个列联表, 这是一个天文数字。其实对这些列联表,特别是对高维列联表, 没有必要去浪费资源来进行分析。主要原因之一是变量太多, 几乎无法进行分析; 即使得到结论也很难解释。另一个原因是, 这些列联表往往是很稀疏的, 有大量数值为 0的空格; 不可能得到有用的结果。/ 金融员工调查0数据的最

16、大的列联表是 54 维的列联表, 在其全部 61298304 1034个格子中只有 854 个格子有数目, 其中数目为 1 的有 718 个格, 数目为 2 的有 136 个格, 其余全部是空格( 格中数目为 0) 。这种列联表没有任何实际意义。如果上面的 54维列联表太极端, 那么维数低的列联表的情况又怎么样呢? 该数据可以组成 316251 个四维列联表。但其中有 194195 个有空格。有空格的占 61141% 。其中有 406个列联表的空格率竟然达到 40% 之多。人们知道, 对有空格的列联表无法计算 Pearson 和似然比V2统计量。再加上由于观测值数目太大, 进行 Fisher 精确检验也不现实。在这种情况下, 根本就无法对具有众多空格的列联表进行常规的诸如独立性、齐性或拟合优度检验。另外, / 金融员工调查0 数据可以形成 24804 个三维列联表。其中有 14410 个有空格, 占 58110% , 比四维表要好些。而其中有 1/10 空格以上的有 6759 个, 有 1/4 空格以上的有 731个, 有 1/3 空格以上的有 52 个, 有 40

展开阅读全文