不得不读:缺失数据处理

上传人:宝路 文档编号:48312921 上传时间:2018-07-13 格式:PPT 页数:21 大小:2.27MB
返回 下载 相关 举报
不得不读:缺失数据处理_第1页
第1页 / 共21页
不得不读:缺失数据处理_第2页
第2页 / 共21页
不得不读:缺失数据处理_第3页
第3页 / 共21页
不得不读:缺失数据处理_第4页
第4页 / 共21页
不得不读:缺失数据处理_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《不得不读:缺失数据处理》由会员分享,可在线阅读,更多相关《不得不读:缺失数据处理(21页珍藏版)》请在金锄头文库上搜索。

1、缺失数据的插补方法中国科学院系统科学研究所杨 军联系方式:报告提纲缺失数据为什么进行插补单一插补多重插补几何插补问题与挑战缺失数据在许多实际问题的研究中,有一些数据无 法获得或缺失。当缺失比例很小时,可直 接对完全记录进行数据处理,舍弃缺失记 录。 但在实际数据中,往往缺失数据占有 相当的比重,尤其是多元数据。这时前述 的处理将是低效率的,因为这样做丢失了 大量信息,并且会产生偏倚,使不完全观 测数据与完全观测数据间产生系统差异。什么是插补给每一个缺失数据一 些替代值,如此得 到“完全数据集”后,再使用完全数据统 计分析方法分析数据并进行统计推断。80年代以后,人们开始重视数据缺失问 题,着力

2、研究插补方法。迄今为 止,提 出并发展了30多种的插补方法。在抽样 调查中应用的主要是单一插补和多重插 补。为什么进行插补允许应用标准的完全数据分析方法 能融合数据收集者的知识 数据缺失使数据结构复杂化,需要使用更 复杂的统计工具进行分析,而插补可以缓 解这一困难 能够防止删除不完全记录造成的信息丢失 在一些情形下,插补能够减少无回答偏倚 特别注意:插补的目的并不是预测单个缺失 值,而是预测缺失数据所服从的分布单一插补单一插补指对每个缺失值,从其预测分 布中取一个值填充缺失值后,使用标准 的完全数据分析进行处理。单一插补的 方法很多,总的说来可以归为两类:随 机插补和确定性插补。常用的确定性插

3、 补方法有以下几种:推理插补均值插补热平台插补冷平台插补最近邻插补在插补类中按匹配变量找到和受者记录最接近的供者记录替 代缺失记录 比率/回归插补根据辅助信息与样本中的有效回答记录建立一个比率或回归 模型 EM算法每一种确定性的插补方法都对应着一种随 机插补方法。插补定量数据时,用确定性 的方法得到一个插补值,加上从某个适宜 的分布中产生的一个残差作为最后的插补 值,就成为随机插补。随机插补能更好地 保持数据的频数结构,保持比确定性插补 更真实的变异性。下面绍两种贝叶斯观点的随机插补:贝叶斯Bootstap(ABB)近似贝叶斯Bootstap(ABB)单一插补的优点1、标准的完全数据分析方法2

4、、对公众应用数据库,程序运行一次缺点低估估计量的方差改进校正估计量的方差,主要利用Jackknife 、Bootstrap 等工具,给出方差的相合估计。多重插补单一插补往往会低估估计量的方差,为 改善这一弊病,80年代前后,Rubin提出 了多重插补。后经Rubin、Meng X.L. 和 J.L. Schafer等人完善和发展,已经在著名 的统计软件SAS中采用。多重插补是一 种以模拟为基础的方法,对每个缺失值 产生m个合理的插补值,这样插补后,得 到m组完全数据,使用标准的完全数据方 法分析每组数据并融合分析结果。多重插补保持了单一插补的两个基本优点,即应用完全数据分析 方法和融合数据收集

5、者知识的能力。相对于单一插补,多重插补有 三个极其重要的优点:第一,为表现数据分布,随机抽取进行插补 ,增加了估计的有效性。第二,当多重插补是在某个模型下的随机 抽样时,按一种直接方式简单融合完全数据推断得出有效推断,即 它反映了在该模型下由缺失值导致的附加变异。第三,在多个模型 下通过随机抽取进行插补,简单地应用完全数据方法,可以对无回 答的不同模型下推断的敏感性进行直接研究。多重插补缺点:一、生成多重插补比单一插补需要更多工作二、贮存多重插补数据集需要更多存储空间三、分析多重插补数据集比单一插补需要花费 更多精力。多重插补所面临的主要问题是如何得到缺失 数据的多个插补版本。为正确地进行插补,需 要首先要明确缺失机制,然后讨论插补机制。问题与挑战The end !Thanks you very much !

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号