基于规则隐藏的聚类隐私保护模型及算法研究

上传人:lizhe****0001 文档编号:48276766 上传时间:2018-07-12 格式:PDF 页数:51 大小:1.02MB
返回 下载 相关 举报
基于规则隐藏的聚类隐私保护模型及算法研究_第1页
第1页 / 共51页
基于规则隐藏的聚类隐私保护模型及算法研究_第2页
第2页 / 共51页
基于规则隐藏的聚类隐私保护模型及算法研究_第3页
第3页 / 共51页
基于规则隐藏的聚类隐私保护模型及算法研究_第4页
第4页 / 共51页
基于规则隐藏的聚类隐私保护模型及算法研究_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《基于规则隐藏的聚类隐私保护模型及算法研究》由会员分享,可在线阅读,更多相关《基于规则隐藏的聚类隐私保护模型及算法研究(51页珍藏版)》请在金锄头文库上搜索。

1、河北工业大学硕士学位论文 i 基于规则隐藏的聚类隐私保护模型及算法研究基于规则隐藏的聚类隐私保护模型及算法研究 摘摘 要要 近几十年来,随着信息技术的发展,企业的运作方式发生了深刻地变革,数据信息流成为了企业生命的主线。然而在这种情况下,人们往往担心隐私被泄露而拒绝提供信息资料或提供虚假的信息。所以保护隐私程度的高低将直接关系到是否能够收集到足够真实的信息,从而关系到挖掘出来的信息是否可靠有用。于是,隐私保护便成为人们关注的焦点。 本文建立了一个隐私保护算法的分类框架,通过对该分类框架的研究分析,发现了目前研究中的空缺基于规则隐藏的聚类隐私保护,并针对这一空缺进行研究,提出了一种新颖的聚类隐私

2、保护规则隐藏的模型及算法,进行了实验仿真,验证了算法的有效性。 本文的具体贡献有如下几个方面: 第一,本文提出了新的隐私保护算法分类框架,从应用类型、技术策略、隐藏对象和适用算法四个维度对隐私保护算法进行分类。在此基础上通过文献研究,分别从这四个维度对现有的主要隐私保护数据挖掘算法进行了分析比较,找出了目前研究中的空缺基于规则隐藏的聚类隐私保护。 第二,针对目前的研究空缺基于规则隐藏的聚类隐私保护,提出了基于规则隐藏的聚类隐私保护模型,包含:数据预处理,聚类规则隐藏和算法评价三部分。首先,在数据预处理中,采用数据规范化,k-means聚类算法,轮廓系数法等方法,对原始数据进行预处理,目的是得到

3、聚类规则隐藏算法所需要输入的变量。之后,使用添加噪声的办法,将数据进行几何平移,以达到隐私保护的目的。聚类规则隐藏算法包括三个必要的过程: (1)确定敏感对象; (2)确定噪声矢量; (3)根据前一步定义的噪声矢量,使用几何平移函数将数据进行修改。最后,依据评价指标对结果进行评价,判断运算结果的优劣。评价指标分别为:计算复杂性、隐私保护效果和准确性。 第三,使用两组实验数据,并进行仿真实验,证明了算法的有效性。 关键词:关键词:数据挖掘,隐私保护,聚类,规则隐藏 基于规则隐藏的聚类隐私保护模型及算法研究 ii RESEARCH ON MODEL AND ALGORITHM FOR PRIVAC

4、Y PRESERVING CLUSTERING BASED ON RULE HIDING ABSTRACT In recent years, with the development of information technology, the operation of enterprises has gone through a drastic revolution. Data information flow became the lifeblood of enterprises. However, in such a situation, people would worry about

5、 disclosure of privacy and are likely to provide phony information rather than the authentic. So, the level of privacy preserving determines whether enterprises can get real information from which they could mine the useful rule. Upon that, privacy preserving became the focus of peoples attention. I

6、n this dissertation, taxonomy of privacy preserving algorithm is developed. Based on this taxonomy, discover a vacancy of recent research which is a preserving clustering based on rule hiding. Subsequently, a novel model is built and an algorithm is put forward. In addition, introduce performance me

7、asures for privacy preserving and report the results. The tests show that such an approach is fairly effective. The contributions of this dissertation are as follows: First of all, taxonomy of privacy preserving algorithm is developed, so that the algorithms could be categorized and compared accordi

8、ng to application types, technique strategy, hiding object and data mining algorithm. Therefore, a vacancy, preserving clustering based on rule hiding, is discovered. Secondly, a novel model is built and an algorithm is put forward about preserving clustering based on rule hiding, including: data pr

9、eprocess, clustering rule hiding and algorithm evaluation. Above all, the raw data are processed to get the input variable of clustering rule hiding algorithm by normalization, k-means clustering algorithm and silhouette coefficient. Subsequently, the data are transformed by adding noise, so as to a

10、chieve the goal of privacy preserving. Three steps of the clustering rule hiding algorithm are as the following: (1) deciding sensitive objects; (2) choosing noises; (3) modifying data according to the noises. Finally, introduce the performance measures which are computational complexity, effectiven

11、ess of privacy preserving and accuracy. Thirdly, two sets of data are tested and the results are reported. The tests show that such an approach is fairly effective. KEY WORDS: Data Mining, Privacy Preserving, Clustering, Rule Hiding河北工业大学硕士学位论文 1 第一章 第一章 绪论绪论 1-1 选题背景 1-1 选题背景 近几十年来,伴随着信息技术的发展,企业的运作

12、方式发生了深刻地变革。企业在运转的过程中积累了大量有关客户商务行为和客户本身的数据, 数据信息流成为了企业生命的主线。 数据挖掘技术随之产生并应用于企业,对企业数据进行挖掘,就可以找出有价值的“知识” ,以达到企业获利的目的。企业可以根据这些“知识” ,把握客户动态,追踪市场变化,做出正确的针对性的决策,比如向各类客户推出个性化的产品,或者向高流失客户群提供优惠政策进行挽留等等。 但与此同时,数据挖掘也面临着许多问题的挑战。其中,数据挖掘的个人隐私信息安全问题尤其得到关注。误用、滥用数据挖掘可能导致用户敏感信息泄漏,对此越来越多的人们表示担忧。在这种情况下, 人们往往担心隐私被泄露而拒绝提供信

13、息资料或只提供虚假的信息。 所以保护隐私程度的高低将直接关系到是否能够收集到足够真实的信息,从而关系到挖掘出来的信息是否可靠有用。于是,考虑隐私保护的数据挖掘便成为人们关注的焦点,迅速成为数据挖掘领域研究的热点之一。 如何在不暴露客户敏感信息的前提下进行数据挖掘, 一直是人们感兴趣的课题。 问题的解决对实现安全、公平的新型数据挖掘和数据共享有着重要的理论意义和实用价值。因此,建立隐私保护体系、开发隐私保护方法,使客户的权益与企业利益达到平衡,成为企业发展至关重要的任务。不仅如此,隐私保护在政府文件共享、医疗机构的合作研究、电子商务等领域中也有着广阔的应用前景。 1-2 相关研究综述 1-2 相

14、关研究综述 由于计算机处理能力、存储技术以及互联网的发展,信息隐私问题进一步加剧。互联网络可以方便的收集、复制、传播信息,数据挖掘更能有效的挖掘出有价值的、不明显的深层信息,很容易导致信息的滥用,使隐私问题严峻。Rezgur 等(2003)指出“随着计算机的普遍应用和互联网的出现,隐私变成了一个数字化问题” 。在这种情况下,人们会不会由于担心隐私被泄露而拒绝提供任何信息资料呢? 早在 1994 年,加拿大盖洛普(Gallup)受安德森公司委托做的民意测验显示,受访的加拿大人 80%对公司利用电子网络收集他们的个人信息的行为感到忧虑(约翰斯顿等,2000) 。 在 1999 年的一次对互联网用户

15、的调查中,17%的网上用户是正统的隐私保护主义者,他们即使在采取保护隐私的措施下也不愿意提供自己的真实信息;56%的网上用户是实用主义者,在采取保护隐私的措施下,他们提供真实信息的可能性大大提高;其余的 27%的网上用户虽然也考虑隐私,但还是愿意提供自己的真实信息(Cranor 等,1999)。 调查表明,在数据挖掘能够提供的益处面前,只要数据采集者采取措施保证个人的隐私,大部份人还是愿意参与调查并提供自己的隐私数据。 同时也说明保护隐私程度的高低将直接关系到是否能够收集到足够真实的信息,从而关系到挖掘出来的信息是否可靠有用。Agrawal(1999)也指出考虑隐私保护问题是数据挖掘技术发展的

16、下一个方向。 近年来,隐私保护越来越得到人们的重视,迅速成为数据挖掘领域研究的热点之一。Clifton,Kantarciolu 和 Vaidya(2002)将隐私保护定义为“在未知数据值的情况下,获得数据挖掘的结果”。他们还定义了数据挖掘中隐私的具体内容,包括个体隐私(individual privacy) 、联合隐私(corporation 基于规则隐藏的聚类隐私保护模型及算法研究 2 privacy)和规则限制(results restriction) 。 一般地说,个体隐私是指保护个人的信息不让他人获得。许多立法机构就是以此为目标立法的,如欧盟 1995 年通过的个人数据保护指令规定个人数据(personal data)是指可以识别出自然人的相关信息;可识别人是指可以被直接或间接识别出的个人,尤其指根据身份证号码或根据一项或多项生理、心理、经济、文化或社会特征的细节识别出的个人。这里的关键词就是“可识别的(identifiable) ” ,只要数据不能识别出个人,那么数据就可以认为是安全的。 有时候,只保护个体隐私是不够的,还需要保护联合

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号