数据清理原悦－金锄头文库

资源描述

《数据清理原悦》由会员分享，可在线阅读，更多相关《数据清理原悦（8页珍藏版）》请在金锄头文库上搜索。

1、数据清理原悦2018.9数据清理：顾名思义就是把数据中“脏”的部分清洗掉，其中不符合要求的主要包括不完整的数据、错误的数据、重复的数据三大类。我们在清理的时候也是主要的三种类型，包括将缺失的数据补充完整、将错误的数据纠正或者删除、对多余的重复数据筛选清除。重复数据：【data】【identifiedduplicatecases】，将变量放入【definematchingcasesby】框中，其他选项如果没有特殊要求，保持默认设置即可。会生成一个重复数据记录标识变量“primarylast”，将“primarylast”变量进行排序，排序后将标有重复个案的个案选中，然后选择【清除】即可。奇异值：

2、利用frequencies来发现和检查奇异数据：【analyze】【descriptivestatistics】【frequencies】，通过这个操作不仅可以发现奇异值，而且能够发现缺失值清理系统缺失值：【data】【selectcases】【ifconditionissatisfied】MISSING()，unselectedcasesare：filtered，对奇异值的清理也可以通过这种方式，比如清理掉数值为3的性别变量。使用箱线图（boxplot）探测异常值：箱线图能够显示数据大致的分布及极值的分布情况，它比较直观、形象、易于理解。【analyze】【descriptivestatis

3、tics】【explore】【plots】，在【boxplots】方框中可以选择箱线图的生成方式，【factorlevelstogether】表示将要为每个因变量创建一个箱线图，【dependenttogether】表示将为每个分组变量水平创建箱线图，【none】表示不创建箱线图。无效值和缺失值的处理：估算（estimation）/插补法：最简单的办法使用某个变量的样本均值、中位数或众数代替无效值或缺失值，这种办法简单，但是没有充分考虑数据中已有信息，误差的可能性较大。另外一种方式就是根据调查对象对其他问题的答案，通过变量之间的相关分析或逻辑推论进行估计整列删除（casewisedeletio

4、n）：剔除含有缺失值的样本，由于很多问卷都可能存在缺失值，这种做法的结果可能导致有效样本量大大减少，无法充分利用已经收集到的数据，因此只适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的情况变量删除（variabledeletion）：如果某一变量的无效值和缺失值很多，但是该变量对所研究的问题不是特别重要，则可以考虑直接将该变量删除成对删除（pairwisedeletion）：保留了数据集中全部的变量和样本，但是在具体计算时只采用完整答案的样本，因而不同的分析涉及的变量可能不同，其有效样本量也会有所不同，这是一种保守的处理方法，最大限度地保留了数据集中的可用信息。插补法：均值替换法（me

5、animputation）：我们要将变量的属性分为数值型和非数值型来分别进行处理，如果缺失值是数值型的，就根据该变量在其他所有对象中取值的平均值来填充该缺失的变量值；如果缺失值是非数值型的，就根据统计学中的众数原理，用该变量在其他所有对象中取值次数最多的值来补齐该缺失的变量值。这是一种简便、快速的处理数据方法，使用均值替换法插补数据后，对该变量的均值估计不会产生影响，但这种方法会造成变量的方差和标准差变小。热卡填充法（hotdecking）：对于包含缺失值的变量，热卡填充法是在数据库中找到一个和它最相似的对象，然后用这个相似对象的值来进行填充，最常见的是使用相关系数矩阵来确定一个和缺失值所在变

6、量（变量X）最相关的变量（变量Y），然后把所有个案按Y的取值大小进行排序，然后将所有个案按照Y的取值大小进行排序，那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。与均值替换法相比，利用热卡填充法插补数据后，其变量的标准差与插补前较接近，但在回归方程中，使用热卡填充法容易使得回归方程的误差增大，参数估计变得不稳定，而且这种方法使用不便，比较耗时。回归替换法（regressionimputation）：回归替换法首先需要选择若干个预测缺失值的变量，然后建立回归方程估计缺失值，即用缺失数据的条件期望对缺失值进行替换，与前述几种插补方法比较，该方法利用了数据库中尽量多的信息，但是也存在

7、一些问题：第一，这虽然是一个无偏估计，但是却容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重；第二，研究者在进行回归替换法之前必须假设缺失值所在变量与其他变量之间存在线性关系，条件较为苛刻。多重替代法（multipleimputation）：多重估算是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法，是简单估算的改进方式。首先使用多重估算技术用一系列可能的值来替换每一个缺失值，反映了被替换的缺失数据的不确定性，然后用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后把来自于各个数据集的统计结果进行综合，得到总体参数的估计值。由于多重估算技术并不是用单一的值来替换缺失值，而是试图产生缺失值的一个随机样本，这种方法反映出了由于数据缺失而导致的不确定性，能够产生更加有效的统计推断。结合这种方法，研究者可以比较容易地，在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。NORM统计软件可以较为简便地操作该方法。特殊设定的数据清理：规定答案的题目没有回答规定答案缺失值占比大于5%的被试相同设问的题目回答是反向的连续多道题目答案相同

展开阅读全文

数据清理 原悦

最新文档

数据清理原悦