r语言学习系列14-缺失值及缺失模式

上传人:小** 文档编号:55317273 上传时间:2018-09-27 格式:DOC 页数:13 大小:136.81KB
返回 下载 相关 举报
r语言学习系列14-缺失值及缺失模式_第1页
第1页 / 共13页
r语言学习系列14-缺失值及缺失模式_第2页
第2页 / 共13页
r语言学习系列14-缺失值及缺失模式_第3页
第3页 / 共13页
r语言学习系列14-缺失值及缺失模式_第4页
第4页 / 共13页
r语言学习系列14-缺失值及缺失模式_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《r语言学习系列14-缺失值及缺失模式》由会员分享,可在线阅读,更多相关《r语言学习系列14-缺失值及缺失模式(13页珍藏版)》请在金锄头文库上搜索。

1、14. 缺失值及缺失模式缺失值及缺失模式 目录:目录:一一. 什么是缺失值?什么是缺失值?二二. 识别缺失值识别缺失值三三. 缺失模式及处理办法缺失模式及处理办法四判断缺失模式四判断缺失模式正文:正文:一、什么是缺失值?一、什么是缺失值?1. 缺失值缺失值缺失值是任何数据集中经常出现的问题,无回答、录入错误等调查中常会出现的现象都会导致缺失数据。缺失值通常会用一些特殊符号进行标记,比如 9999、1990 年 1 月 1 日,或者是“*”、“?”、“#”、“$”等符号。还有一种数值缺失情况,是统计的时间窗口并非对所有数据都适合。例如,需要“客户近 6 个月内的最大存款余额”,对于那些建立账户尚

2、不满 6 个月的客户来说,统计出来的数值与想要得到的就可能存在差距。缺失数据会影响分析工作的进行和统计工作的效率,还会导致分析的偏差。数据使用者、分析者往往缺乏缺失值处理方面的知识,仅仅对数据进行简单删除或插补会影响数据规模和数据结构,进而影响分析结果。一般来说,对缺失值的填充方法,最好是先判断其缺失模式,再建立一些适当模型,根据数据的分布来填充一个更恰当的数值。R 语言中,缺失值用 NA 表示。2. 缺失值的产生原因缺失值的产生原因(1) 有些信息暂时无法获取(2) 有些信息是被遗漏的(3) 有些对象的某个或某些属性是不可用的(4) 有些信息(被认为)是不重要的(5) 获取这些信息的代价太大

3、(6) 系统实时性能要求较高3. NA 与与 NULL 区别:区别:NA 表示数据集中的该数据遗失、不存在。在针对具有 NA 的数据集进行函数操作的时候,该 NA 不会被直接剔除。如x0) cor(y)NonD Dream Sleep Span GestNonD 1.00000000 0.90711474 0.48626454 0.01519577 -0.14182716 Dream 0.90711474 1.00000000 0.20370138 0.03752394 -0.12865350 Sleep 0.48626454 0.20370138 1.00000000 -0.06896552

4、 -0.06896552 Span 0.01519577 0.03752394 -0.06896552 1.00000000 0.19827586 Gest -0.14182716 -0.12865350 -0.06896552 0.19827586 1.00000000 cor(sleep,y,use=“plete.obs“)NonD Dream Sleep Span GestBodyWgt 0.22682614 0.22259108 0.001684992 -0.05831706 -0.05396818BrainWgt 0.17945923 0.16321105 0.007859438 -

5、0.07921370 -0.07332961NonD NA NA NA -0.04314514 -0.04553485Dream -0.18895206 NA -0.188952059 0.11699247 0.22774685Sleep -0.08023157 -0.08023157 NA 0.09638044 0.03976464Span 0.08336361 0.05981377 0.005238852 NA -0.06527277Gest 0.20239201 0.05140232 0.159701523 -0.17495305 NAPred 0.04758438 -0.0683437

6、8 0.202462711 0.02313860 -0.20101655Exp 0.24546836 0.12740768 0.260772984 -0.19291879 -0.19291879Danger 0.06528387 -0.06724755 0.208883617 -0.06666498 -0.20443928 Warning message: In cor(sleep, y, use = “plete.obs“) : 标准差为零主要参考文献主要参考文献:1 R 语言:缺失值处理,银河统计学,csdn 博客:http:/ 缺失值的处理,铁汉 1990 的博客,新浪博客:http:/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号