应用数据挖掘技术寻求丢失数据中的倾向性规律

资源描述

《应用数据挖掘技术寻求丢失数据中的倾向性规律》由会员分享，可在线阅读，更多相关《应用数据挖掘技术寻求丢失数据中的倾向性规律（19页珍藏版）》请在金锄头文库上搜索。

1、大连理工大学本科外文翻译应用数据挖掘技术寻求丢失数据中的倾向性规律Using Data Mining Techniques to DiscoverBias Patterns in Missing Data学院（系）：软件学院专业：软件工程学生姓名：李文娇学号：200792371指导教师：张宪超完成日期：2011年3月28日大连理工大学Dalian University of Technology应用数据挖掘技术寻求丢失数据中的倾向性规律Monica Chiarini Tremblay, Kaushik Dutta, and Debra Vandermeer佛罗里达国际大学摘要：在当今数据丰富的

2、环境中，决策者根据信息库的信息来做出决定，然而这些数据的质量却可能存在着问题。在本文中，数据丢失是个重要而广为人知的问题，因为它会严重影响决策制定的准确性。研究人员已描绘了几种办法来解决数据丢失的问题，其基本任务是推断出丢失数据的价值或判断因数据丢失而造成的影响然而，很少有人考虑找出丢失数据中的特征化的偏差模式，也就是，确定导致数据值丢失的一些特定的属性。对数据丢失事件中特殊化典型化偏差模式的认知可以帮助分析师在数据丢失的情况下，更准确地评估出根据数据集制定出的决策的优劣。本项研究提出了一种结合了知识发掘和数据挖掘技术的方法，包括关联规则挖掘，用来发掘关联属性值中的倾向性因素，

3、而这些关联属性正式找到倾向性因素特征的关键所在。实验验证了我们提出的方法的有效性。我们将其应用于一个民主党人口调查的数据集并移入了偏置的丢失数据。实验结果表明我们的方法能够找到移入的偏置数据并且滤过大多移入的干扰。一般词：设计，算法，人为因素关键词：数据质量，丢失数据，模式发掘1. 引言随着大量信息的接收，决策者常常依据数据集来制定决策，而这些数据集，由于各种各样的原因，存在着数据的质量问题。在决策中，数据质量至关重要并且不好的质量会对决定的效力产生消极的影响，以致信息被错误的报道。数据质量问题源于信息供应链的本质，这是由于，一种使用数据的用户可能距离原本收集原始数据集的人群或

4、团体好几个供应链，而这些数据是基于原始数据集的。这些用户使用这些数据产物来制定决策，通常是关于金融和时间预算的决策。使用数据的用户和数据的供应者之间的脱节造成了用户不清楚甚至完全不知道数据具有怎样的质量的状况，导致存在错误决策发生的潜在性，影响了时间和经济资源的有效配置。丢失的数据，也就是字段上不可获得的部分，造成了很严重的问题，因为它能导致分析师的错误判断。当数据被从原有的数据集或数据库中剥离出去时（这在从多种途径整合信息时经常发生），通常数据会经历一个净化过程来尽可能的减小值缺失的概率。但这个净化过程只在这个范围内有效。还是会有些数据无法被修补好因为数据库管理员可能压根不知

5、道丢失的数据的值是什么，就比如有些时候会发生一个人在填写表格时漏填了一栏这样的情况。这时候，数据库管理员可能连同缺失的信息和整条记录一同删掉，这样的代价就是删掉了同条记录中其他那些有效的数据，也或者，管理员会允许数据集中存在信息不完整的数据。我们本文的研究兴趣在于后者。数据丢失是很常见的事情，最近有一项回顾研究了 300 多篇在心理研究期刊上出版的文章，发现有超过90%的文章在数据库中有数据缺失的现象，其平均的信息缺失量高达 30%多，然而对于数据丢失对这些文章的潜在影响研究报告中却很少提及。引起数据值丢失的原因多种多样，大概可以归为两大类：随机丢失（MAR）和非随机丢失（MN

6、AR）。在随机丢失的情况下，缺失的数据无法从其他的数据中推断出来，但在非随机丢失的情况下，丢失的数据中存在着一种规律。处理随机丢失的方案中有评估缺失值和转嫁缺失值。然而，数据丢失的情况却往往属于非随机丢失类，也就是说，缺省的值具有倾向性。这种缺失的发生可能源于很多种原因。例如，接受问卷的人会拒绝回答那些他们认为过于隐私的问题，这些问题通常关于宗教，文化，和性别取向。这种倾向性也可能是由人类天性中保留不利信息的方面引起的。例如，在填写医保信息单时，病人会故意隐瞒自己那些增加某些疾病发病率的不卫生行为。在非随机丢失情况下，如果一个分析师假设丢失的信息没有倾向性，那么他得出的结论很有

7、可能是错误的。比如说，一个医保政策的分析师承担着为预防类的医保工程推荐资金分配提议的责任，他可能会因为注意到青少年吸烟的情况有了明显的改观而决定减少对提倡青少年不吸烟的项目的拨款。然而如果，大批 15 到 20 岁之间的男性只是没有提供明确的信息说明他们吸烟还是不吸烟（导致数据集中出现了缺省值），那么分析师所注意到的明显的改观趋势实际上可能导致一个错误的决策。任何依据此数据集做出的决定都可能没有实现对财务资源的最优配置。显然，对于非随机的数据丢失，揭露数据集中数据丢失的规律会有帮助。一旦这些规律被揭露，我们可以根据出现倾向性数据丢失的上下文来采取几个步骤假如决策者恰好是数据集的创

8、建者或拥有者，可以采取预防性措施，通过已知的信息判断出可能的倾向信息，并利用这些信息来优化搜集数据集的算法。拿我们青少年吸烟的那项调查举例，我们可以特别声明所有信息的填写都是匿名的并且保证个人隐私的安全。如果决策者与数据集的创建没有关联，可以采取以下几个方法解决问题。其中一个办法是，纵向与相似元组比较该记录中没有缺省的列，取出比较值相同的记录，再根据取出记录中对应缺省项填写的内容来推断出丢失数据的值。在青少年吸烟这个例子中，假如 15岁到20岁之间20%的男性没有透露自己是否吸烟，然而其余多达 80%这个年龄段的男性都表明自己吸烟，那么设立的假设大多隐瞒了自己是否吸烟的答卷人实

9、际是吸烟人群可以成立（凭直觉来说，归咎法本质上就是这样一种方法）。有极少的情况下，根据判断结果生成的决策或行动可以被更改。举个例子，假如我们的医保政策分析师知道绝大多数男性青少年没有就是否吸烟问题给出答案，那么他就会明白其余给出答案的问卷的信息说明不了问题从而继续为防范工作拨款，或者，寻找其他方法确认情况。大多解决数据丢失问题的任务都把重点放在了归因和判断丢书数据上。Shen 和 Chen 提出了一种利用关联规则挖掘来填补缺失值的方案。 Horton 和 Kleiman 提出了一种基于统计方法的概念，用来解决相同的问题。另一领域的研究提供了如何衡量丢失的数据对判断结果造成的影响大小。

10、我们有不同的提议，那就是不去管如何填补丢失的数据，也不去管用什么样的方法测出这些数据对决策制定的最终影响，而是努力找出数据丢失的规律。Wang 和 Strong 根据一项由信息系统专家和研究人员进行的调查，定义了 15 个标准用来区别不同质量的数据。围绕着数据丢失的两类问题分别是复杂度和客观度，对此 Wang 和 Strong 这样下了定义：复杂度：数据丢失程度的多少和以及现有信息的覆盖范围和深入程度对于解决目前状况的充足程度。客观度：数据公正，客观和不偏不倚的程度。我们尤其对于那些数据集中客观度问题与复杂度问题紧密联系的情况感兴趣，也就是说，倾向性规律的数据丢失。密切的关联使得决策

11、者在没有外界的帮助下很难全局地看待问题。在本文中，我们致力于帮助决策者解决这些问题，找到丢书数据中存在的倾向性规律。我们把研究重点放在了发现并特征化这些规律我们在本文中的作为如下：我们把数据挖掘技术作为一种潜在的确认数据丢失的倾向性规律的方法。我们提出了一种方法用来将现有的数据挖掘技术应用到揭示丢失数据中的规律找到起作用的特定属性.我们的方法涉及了数据准备，规则挖掘技术的应用，对大规模结果集合的聚合。我们描述出传统数据挖掘技术应用和这些技术在寻找丢失数据的规律中的应用之间的区别，并提出克服这些差距的改进方案。Rubin 在他最早针对数据丢失这一问题的研究结尾极力号召人们去做找到数

12、据的丢失规律的研究。在Rubin之后很久，Ordonez et al. 2000表示数据的丢失规律是一块非常有吸引力的研究领域。然而，虽然最近的相关研究确定了一些常见并且热门的规律，比如，单调性（由纵向研究中的数据丢失带引起），但拓展至文选领域，我们还是找不到一种通用的方法能满足 Rubin 在 1976年研究中提出的那种要求来确认数据的丢失规律。我们现在的任务就是呈现给大家我们所做的第一次尝试，提出通用的方法解决数据丢失规律的问题。这篇文章剩下的部分作如下安排。第二部分中，描述我们的方法并作少许例子来诠释。在第三部分中，展示我们做的实验及其结果来证明我们方法的效力。在第四部分中

13、，我们讨论实验结果并探索改善方法的途径。在第五部分中，我们讨论了方法的可行性，以及其他可行的算法。在第六部分中，我们讨论了今后继续改进研究方法的工作。2. 解决方法为了找到数据库中某一属性的数据丢失规律，我们探究了应用KDD （知识发掘和数据挖掘）技术区寻找可能代表某种倾向性的相关属性中的规律。其中有几种方法是可行的，包括监控和非监控的两种机械获知技术。我们的目标是确认哪种属性经常伴随着具有选定特性的数据丢失事件同时发生（例如，年收入的缺省常常出现在单身且拥有房产的男性的记录当中）。有许多寻找规律的方法都可以当作数据丢失规律的分析方法，包括监控的技术，例如决策树，神经网络和回归，

14、和非监控的技术，例如聚类分析和关联规则挖掘。在本文中，我们要考虑的是可能引起丢失数据中的倾向的属性组合。关联规则挖掘，正如我们在下文中描述的，似乎恰好能解决文中的问题。关联规则挖掘（ARM），也叫市场购物篮分析，是一种广泛使用的数据挖掘技术。ARM算法的目的是寻找交易量大的数据库中常被访问的项，就比如人们在百货店会购买的某种物品。那些常常出现在购物篮中的商品可以被用来设计促销，改进商店的布局，或是掌控消费者消费感受的其他方面。同样地，我们寻找成“篮”的值来推测数据丢失的规律。关联方面的任务有两个目标：找到出现频率高的项集和找到关联规则。对于关联规则挖掘算法而言，每一个属性/值对都

15、可以称作一个项。每个项集有一定大小，相对应的是它所包含的项的数量（例如，对于人口统计的数据来说，我们可以设定一个包含三项的项集，其中“性别”项的值是“女性”，“年龄”项的值是“30-35”，“拥有房产”的值为“真”）。此项集的覆盖数是指这种组合出现在数据集中的次数。支持率就是覆盖数的百分率形式，并总在用户饮用后形成。举例说明，支持率为 4%意味着此项集在所有记录的 4%的部分中都曾出现。ARM 算法二个目标是寻找规则。一项关联规则具有 A,B=C 这样的形式并附带一个确信度的估量。确信度代表着给定了不等式左侧（LHS）的项集，规则的不等式右侧（RHS）出现的百分率。这样，加入我们

16、对于项集“性另0 女并且年龄=30-35=持有房产=真”有一个确信度为 60%的规则,那么在该数据集中 60%的年龄在 30 到 35 之间的女性都是房产持有者。在相关的任务中，用户在启动 ARM 算法之前明确设置了最小的支持率和确认度的临界值。这样，只有那些拥有值达到或高于临界值的支持率和确认度的规则才可以触发算法执行。我们用关联规则算法生成规则，来确认数据丢失事件中的成类的倾向性缺省值。在本部分中，我们大致描述我们的标准方法并举例阐述它，之后我们会在一项考察性实验研究中证明此方法。表I代表了一组关于高中和初中学生被问及是否尝试过吸烟的假设结果。它包含了5 项属性：学校名称（能够代表其社会经济地位的事物），家长或监护人是否吸烟，性别，年龄和该生汇报的有无吸烟情况。这里面有两个隐藏的内置倾向：无论是哪所学校的年龄处于 15 到18

展开阅读全文

应用数据挖掘技术寻求丢失数据中的倾向性规律

最新文档