追踪研究中缺失数据处理方法及应用现状分析

资源描述

《追踪研究中缺失数据处理方法及应用现状分析》由会员分享，可在线阅读，更多相关《追踪研究中缺失数据处理方法及应用现状分析（17页珍藏版）》请在金锄头文库上搜索。

1、追踪研究中缺失数据处理方法及应用现状分析叶素静唐文清张敏强曹魏聪华南师范大学心理学院心理应用研究中心广西大学教育学院摘要：追踪研究中普遍存在缺失数据, 缺失数据处理方法的选择影响统计推断的精度及研究结果的有效性。首先, 阐述缺失机制及判断方法, 比较追踪研究中主要的缺失数据处理方法的特点、及实际应用中的缺失处理方法的选择和软件实现。其次, 对国内心理学中 92 篇追踪研究文献进行分析, 发现有 59 篇 (64.13%) 报告不同程度缺失, 其中仅 39 篇报告了处理方法且均为删除法。未来研究应深入探讨现有缺失数据处理方法的有效性, 进一步规范应用研究中缺失数据的处理。关键词

2、：追踪研究; 缺失数据; 缺失机制; 缺失数据处理方法; 作者简介：张敏强, E-mail:收稿日期：2014-01-01基金：国家社会科学基金“十二五”规划教育学一般课题 (BHA130053) Techniques for Missing Data in Longitudinal Studies and Its ApplicationYE Sujing TANG Wenqing ZHANG Minqiang CAO Weicong Center for Studies of Psychological Application, School of Psychology, South Ch

3、ina Normal University; Abstract： Missing data are not uncommon in longitudinal studies. Different techniques for handling missing data affect accuracy of the results and validity of statistical inference. Firstly, we will elaborate on missingness mechanism and how to judge them. Then we make a summa

4、ry of missing data techniques that mainly used in longitudinal study, and how to choose an appropriate missing data technique as well as software for analysis. Secondly, based on a literature review of psychology research in China, among 92 studies, we found that 59 contain a certain degree of missi

5、ng data. Among these, 39 studies reported using deletion method. The validity of missing data techniques needs further study, and the reporting of missing data in published research also needs to be better established.Keyword： longitudinal study; missing data; missingness mechanism; missing data tec

6、hnique; Received： 2014-01-011 引言追踪研究方法作为探讨心理与行为发生、发展和变化的有效途径之一, 已被广泛应用于教育、发展、社会、临床等心理研究领域。但是, 追踪研究需收集一批被试在几个时间点的测量数据, 数据缺失现象普遍存在, 且缺失比横断研究更为严重、复杂。被试作答过程的疏忽、回避等导致某次测量中研究变量数据不完整, 或追踪过程中被试没有时间或不愿参与等都会造成数据缺失。数据缺失比例过大会导致样本不具代表性和估计偏差。一般认为, 缺失率为 5%10%是可接受的, 最好不超过三分之一 (风笑天, 2006) , 当缺失达 60% 以上时 , 数据完全失去利用

7、价值 (Barzi & Woodward, 2004) 。因此 , 当数据缺失不能忽略 , 需采用特定方法对其进行处理。缺失数据处理方法的选择影响处理的精确性和研究结果的有效性。追踪研究中传统的缺失数据处理方法主要有删除法 (deletion) 、单一插补法 (single imputation) , 这两种方法简单易行 , 但会造成参数估计偏差和统计功效的损失 (Enders, 2011a, 2013; Graham, 2009) 。近几十年, 特别是 Rubin (1976) 提出缺失机制理论框架后, 现代缺失数据处理方法陆续被提出, 其中基于随机缺失的极大似然估计 (maximu

8、m likelihood estimation, MLE) 和多重插补法 (multiple imputation, MI) 因具有较好的处理精度和较广的应用范围, 最为研究者推崇 (Schafer & Graham, 2002) 。针对追踪研究中的非随机缺失 , 研究者提出了选择模型 (selection model) 和模式混合模型 (pattern-mixturemodel) , 并成为研究热点 (Enders, 2011a, 2011b;Muthn, Asparouhov, Hunter, & Leuchter, 2011) 。文章首先介绍缺失机制及其判断方法。其次, 阐述追踪研

9、究中不同缺失机制下缺失数据处理方法的特点, 及实际应用中方法的选择和软件实现。第三, 对国内心理学领域的追踪研究中缺失数据处理方法的应用现状进行文献分析。最后, 针对缺失数据处理方法的研究和应用存在的问题提出建议。2 缺失机制及判断方法2.1 缺失机制缺失数据处理方法建立在特定的缺失机制基础上, 缺失机制描述的是数据缺失概率与研究变量间的关系 (Schafer & Graham, 2002) 。Rubin (1976) 将缺失机制分为三类:完全随机缺失 (missingcompletely at random, MCAR) 、随机缺失 (missingat random, MAR) 和非随机

10、缺失 (missing not atrandom, MNAR) 。假设对 N 个被试进行 T 个测量时间点的追踪, 追踪研究变量为 Y= (y1, , yK) 。最终样本为 Ycom= (yijt) , i = 1, ., N, j = 1, ., K, t = 1, ., T。缺失数据存在时, 该样本包括完整观测部分和缺失部分, 分别为 Yobs和Ymis。另设 R= (rijt) 为指示变量矩阵, 若 yijt缺失 rijt = 0, 否则为 1。缺失机制本质是描述 R 的分布, 若 yijt缺失概率只与 Yobs有关而与 Ymis无关，即分别为 Y, R 的分布函数参数) , 此类缺

11、失称为MAR。如果 yijt缺失概率与 Yobs、Y mis都无关, 即则为 MCAR。MCAR要求数据缺失是等可能的, 是个更强的假设。MNAR 则指数据缺失依赖于未观测到的数据。如一项关于老年人认知功能的追踪研究中, 若被试因无关变量 (如搬家) 未参加第 t 次测量可认为是 MCAR。若被试因前一次已测得的认知功能得分 (y (t-1) ) 低而不愿参加, y t缺失可由已观测的 y (t-1) 解释, 这种情况为MAR。若被试因当前认知功能 (y t) 衰退不能参加测量, y t缺失是由未观测的 yt自身导致, 该情况为 MNAR。2.2 缺失机制判断方法缺失数据处理方法的有效性依赖

12、于特定缺失机制的成立。因 Ymis的存在难以真正判断数据缺失属于哪种类型, 研究者提出以下粗略判断方法。(1) MCAR 机制检验。Dixon (1983) 通过多次 t 检验比较在变量 yj上有、无缺失的两组样本在无缺失变量上均值的差异性, 若差异不显著则为 MCAR。但当变量数较多, 检验统计量间会出现相关而影响检验结果。Little (1988) 将检验整合成一个服从卡方分布的检验统计量, 若卡方检验 P 值大于设定的显著性水平则为 MCAR, 该检验可直接在 SPSS 12.0 及以上版本的缺失数据分析模块中实现。对于包括非正态数据的情况, 有研究者提出从分布特征入手, 若变量 yj上

13、有、无缺失的两组样本的分布一致则为 MCAR (孙婕, 金勇进, 戴明锋, 2013) 。(2) MAR、MNAR 机制检验。目前 MAR 机制检验研究多集中在单调缺失 (即未参与第 t 时间点测试的样本也不参与 t 时间点后的测试) 情况, 如 Diggle (1989) 运用 Kolmogorov-Smirnov 检验判断样本 1 (未参与 t+1, , T 时间点测试的样本) 是否为样本 2 (参与 t 时间点测试的样本) 的随机样本, 若是则为 MAR。正态分布假设下, Listing 和 Schlittgen (1998) 检验完全追踪样本与样本 1 (未参与 t+1, , T 时间

14、点测试的样本) 在 t 时间点的变量均值的差异性, 若差异不显著则为 MAR; Listing 和 Schlittgen (2003) 通过 Wileoxon 秩和检验将该方法推广到非正态分布的情况。此外, 相当部分研究建立以 R 为因变量, 以完全观测的变量为自变量的 logistic 回归模型, 通过检验回归系数的显著性来粗略判定 MAR 及 MNAR (孙晓松, 2007; Jeli?i?, Phelps, 孙婕等, 2013) 。3 追踪研究中缺失数据处理方法3.1 传统处理方法传统的缺失数据处理方法多基于 MCAR, 如删除法, 它包括列删除法 (list-wise deletion

15、) 和成对删除法 (pair-wise deletion) , 前者删除有缺失的样本数据, 后者估计不同参数时使用对应变量完整观测的样本数据。删除法简单易行, 许多软件提供此功能。若 MCAR 满足且缺失率很小 (10%以下) , 删除法可获得理想的处理效果 (茅群霞, 李晓松, 2005; Clarke & Hardy, 2007) 。但实际中 MCAR 很难满足, 删除法会造成估计偏差, 即使 MCAR 成立, 也有诸如统计功效损失的问题 (刘红云, 张雷, 2005; Enders, 2013) 。另一传统处理方法是单一插补法, 它用某个“看似”合理的值代替缺失值, 主要有均值插补、LO

16、CF (last observation carried forward) 及回归插补。均值插补用变量均值代替该变量的缺失值。LOCF 法用前期观测值 yij (t?1) 代替yijt的缺失值。回归插补根据变量间的相关关系, 利用其他变量信息建立回归方程来预测缺失值。单一插补保留了样本量, 但无论用何种方法都可能存在扭曲样本分布的问题 (庞新生, 2010) , 导致有偏估计 (Barzi, Woodward, Marfisi, Tognoni, Enders, 2013) 。3.2 基于随机缺失的处理方法3.2.1 极大似然估计MLE 通过构造似然函数并求最值来获得参数的估计值。当 Ymis存在时, 难以求解似然函数的最值, 目前主要通过特殊方法如期望极大 (expectation maximization, EM) 算法和全息极大似然估计 (full information maximum likelihood, FIML) 来解决该问题。(1) EM 算法。EM 算法 (

展开阅读全文