统计过程中遇到删失数据

资源描述

《统计过程中遇到删失数据》由会员分享，可在线阅读，更多相关《统计过程中遇到删失数据（5页珍藏版）》请在金锄头文库上搜索。

1、CensoredCensored datadata 删失数据删失数据这两天看 MPLUS 统计手册，总看见 censored data 这个概念，censored 的原意是“审查过的”，在网络用语上是“屏蔽的”，通俗的理解就是敏感词的意思。但什么是“审查过的数据”呢？又查了一下 censored data，统计术语上称作“删失数据”，解释为：就是在数据收集过程中，某些在检测线下的数据被检测线的值或是 0 值代替了。这一解释，稍微能理解点意思，但仍是没有概念。后来，查到下面这段话，是 Amos7.0 可以处理 censored data，并且给出了一个具体例子，才总算明白了啥叫 cen

2、sored data。英文和翻译如下：Censored data occurs when you know that a measurement exceeds some threshold, but you dont know by how much. (There is a less common kind of censored data where you know that a measurement falls below some threshold, but do not know by how much.) As an example of censored data, su

3、ppose you watch people as they try to solve a problem and record how long each person takes to solve it. Suppose that you dont want to spend more than 10 minutes waiting for a person to reach a solution, so that if a person has not solved the problem in 10 minutes, you call a halt and record the fac

4、t that “time to solve” was greater than 10 minutes. If five people solve the problem and two dont, the data from seven people might look like this:当你知道一个测量值超过了临界值，但又不知道具体超过了多少，就叫“删失数据”（较少出现那种低于临界值，但又不知道具体低多少的删失数据）。举个例子，假设你想要进行一个关于问题解决的研究，记录下被试进行问题解决所花的时间。假如有的被试花了 10 分钟还没有答完题，而你又不想继续等待，到 10 分钟的时候

5、你就让被试停止答题，然后记录这名被试的答题时间为“大于 10 分钟”。假设 7 名被试中有 2 名没答完，那么数据记录如下表：CaseTime to solve1622394105469710In Amos 6.0, you could either treat the observation for cases 4 and 7 as missing, or substitute an arbitrary number like 10 or 11 or 12 for cases 4 and 7. Treating cases 4 and 7 as missing has the effect

6、 of biasing the sample by excluding poor problem solvers. Substituting an arbitrary number for a censored value is also undesirable, although the exact effect of substituting an arbitrary number is impossible to know.在 Amos6.0 中，你可以把被试 4 和被试 7 的数据作为缺失数据处理，也可以人为地给他们赋值为 10、11 或 12 等。作为缺失值处理的话，有可能会因为删

7、去了一些问题解决较差者而出现样本偏差。虽然赋其他值的效果还不能确切知道，但这个做法同样也不是个好办法。In Amos 7.0 you can take advantage of all the information you have about cases 4 and 7 without making assumptions other than the assumption of normality.在 Amos7.0 中，研究者就可以利用被试 4 和被试 7 的数据信息，而不用作正态假设之外的其他假设。总结起来，所谓 censored data，就是那些在研究中被掐头（当然也有的是

8、去尾）的数据，知道是被掐了头，但不知道掐了多少。以前很多研究都是当缺失值处理了，但这样做容易导致样本有偏差（即差的都被去掉了，不能反映数据全貌）。可见，统计软件的更新和升级是多么的重要。缺失值是指在数据采集与整理过程中丢失的内容。一般情况下，数据都是以关系型表的方式采集的，如下表是某次调查中一些受访者的基本情况见本文最后的表格。如果在表格中，某一个数据采集时无法获得，就会出现缺失值，例如在上表中“张三”的性别和“赵六”的年龄就出现了缺失。缺失值的处理一般有两种方式，一是删除对应的记录，例如在上例中，如果张三的性别没有记录，出现缺失，则将张三的所有信息全部从数据库中删掉。这种方式在数据缺

9、失非常少的情况下是可行的，但如果各个项目中都有少数的数据缺失存在，对所有缺失的记录都进行删除可能就会使总样本量变得非常小，从而损失许多有用信息。缺失值处理的第二种方式是进行插值处理，所谓插值，是指人为地用一个数值去替代缺失的数值。插值处理根据插值的不同，有如下一些方法：1随机插值根据缺失值的各种可能情况，等概率地进行插值。例如在上例中， “张三”的性别有两种可能性，一是“男”，二是“女”，可以简单地掷一枚硬币，如果正面朝上，则赋值为“男”，如果反面朝上，则赋值为“女”。2依概率插值随机插值是假定各种一个变量取各种值的可能性是相等的，但有些情况下，我们可以事先知道一个变量取各种值的概率，例如，我

10、们知道在上述的单位中，女性占的比例是 75，男性的比例是 25，则在对“张三”的性别进行赋值时，不是按 50概率赋为“女”，而是按 75概率赋为“女”。3就近插值就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值，例如在上例中， “张三”的性别出现缺失，此时可以用其邻近的“李四”的性别数据替代“张三”的性别数据，由于“李四”的性别为“女”，所以将“张三”的性别也赋为“女”。就近插值是依概率插值的一种简化处理，设想在整个单位的职工中，女性占的比例是 75，则在一般情况下，与张三邻近的记录性别为“女”的概率也应当为 75，就近插值实际上就是依概率插值。使用就近插值时，需要对抽样过程进行必

11、要的了解，如果抽样时性别有交叉的情况，例如经常是调查完一名男性后就调查一名女性，则使用就近插值就会出现较多的错误。4分类插值依概率插值是将记录置于总体的背景上进行插值，没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性，则可以根据这些辅助信息对总体进行分类，在每一类内部进行插值处理。例如在上例中， “张三”的职业是“护士”，假定该单位中 95的“护士”性别为“女”，则在进行插值是，就不是使用全单位的女性比例 75，而是使用“护士”中的女性比例 95对“张三”的性别进行赋值。对于缺失值处理的总结对于缺失值处理的总结 2007-11-10 09:43看了候杰泰的书，以

12、及通过以前的了解，我觉得缺失值处理一般有两种方法：1 删除法； 2 补充法删除法一般采用的是 listwise 和 pairwise,listwise 是删除所有具有缺失值的被试的数据，这种方法在现在的研究中经常使用，但是缺点在于会减少样本的大小。有些研究中被试数量比较少，如果采用这种方法会导致样本太少。我觉得这个可以跟样本容量大小放到一起考虑，一般认为需要的被试应该在 100-200 之间，这样我觉得为了避免缺失值和异常值，可以将样本加大一点，尽管会增加成本，但是可以避免数据不够。pairwise 则是在计算相关系数时，去掉在这个位置上缺失数据的点，这样会造成的结果是得到的各种相

13、关系数并不是基于相同的样本的，从而产生非正定的协方差矩阵。非正定矩阵会造成一些问题，例如在座 gauss 回归时，非正定的协方差矩阵是做不出结果的。解决的方法可以不同过计算相关系数矩阵来得到协方差矩阵，不过这会使得结构方程变得没有意义。补充法一般采用的是用其他的数据来代替缺失的数据，比较简单的是均值替代、回归替代。均值替代的方法实际上等价于设定这个被试在缺失数据项的那个数据点的方差为 0；回归替代是用其他的数据去做回归，然后去估测确实值，但是这样有一些问题，如果回归不能很好的表示缺失值数据，结果就会有很大的偏差，此外，这么做实际上是将缺失值的数据方差用其他几个数据的方差来表示，

14、尽管比起直接设定为 0 要好，但是还是会产生很大的偏差。最大似然法和相似反应模式法，也是用与其相似的点来估计他，这样做使得这个点的数据更加的贴近常态，方差比较小。EM 算法和 MCMC 算法是采用的迭代的方法来计算的，这种方法是使得每一次迭代中，数据都可以更加的贴近整体情况，但是这么做如何能保证得到的迭代矩阵是收敛的呢？总的来说，现在一般的处理缺失值的数据，更多的是采用的删除法，补充数据法一般都是降低了原始的方差，可能会得到不符合原始数据的结果，结果的真实性不好。缺失值处理中的缺失值处理中的 tipsSPSS 中的缺失值处理有专门的程序，在 Analysis 菜单下的 Missing

15、 Data Analysis。可以提供缺失数据的详细信息和填补/删除缺失数据，填补的方法有 EM 和回归，删除的方法有列删和对删。对于缺失情况的描述分析中有一个表“Data Pattern(all cases)”（要钩选 Missing Value Analysis：Patterns 中的 All cases, optionally sorted by selected variable 才能看到），其中列出了所有 case 在所有变量上的缺失情况。如果不采用列删和对删的方式处理缺失值，而是想自己手动根据这个表中的 case num 来删，就要注意了：如果使用 Select Case 后，这个

16、表中的 case num 不同于数据文件（*.sav）中的 case num，表中的 case num 是连续排列的，并不根据数据文件中的 case num 来的。如果要填补缺失值，钩选 EM（建议使用）或者 regression 后，还要点出 Missing Data Analysis: EM 这个对话框，将填补缺失值后的数据保留为文件或数据集，否则只会在output 中出示缺失值分析的数据，而不会填补到原数据文件中。另外处于安全的考虑也要保留到新文件中，否则一旦保存就是不可逆的。在 SPSS 中将多分类变量设置为哑变量比较麻烦，其中的一种方法就是将该多分类变量转换成 N-1 列的哑变量，举例来说，原多分类变量有四个取值（A/B/C/D），这时需要设置三列哑变量，比如 D2,D3,D4 用如果变量值是 B，则 D2=1，否则取 0，如果是 C，则用 D3=1,否则取 0，如果是 D，则 D4=1，否则取 0 D2 D3 D41 0 0B0 1 0C1 0 0B0 0 1

展开阅读全文

统计过程中遇到删失数据

最新文档