大数据隐私保护技术综述

上传人:小** 文档编号:34134789 上传时间:2018-02-21 格式:DOC 页数:23 大小:215KB
返回 下载 相关 举报
大数据隐私保护技术综述_第1页
第1页 / 共23页
大数据隐私保护技术综述_第2页
第2页 / 共23页
大数据隐私保护技术综述_第3页
第3页 / 共23页
大数据隐私保护技术综述_第4页
第4页 / 共23页
大数据隐私保护技术综述_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《大数据隐私保护技术综述》由会员分享,可在线阅读,更多相关《大数据隐私保护技术综述(23页珍藏版)》请在金锄头文库上搜索。

1、大数据隐私保护技术综述 方滨兴 贾焰 李爱平 江荣 北京邮电大学 国防科学技术大学计算机学院 摘 要: 大数据分析带来的隐私泄露问题日趋严重, 如何在利用大数据为各行各业服务的同时, 保护隐私数据和防止敏感信息泄露成为新的挑战。大数据具有规模大、来源多、动态更新等特点, 传统的隐私保护技术大都已不再适用。为此, 给出了大数据时代的隐私概念和生命周期保护模型;从大数据生命周期的发布、存储、分析和使用 4 个阶段出发, 对大数据隐私保护中的技术现状进行了分类阐述, 并对各技术的优缺点、适用范围等进行分析;对大数据隐私保护技术发展的方向和趋势进行了阐述。关键词: 大数据; 隐私保护; 数据发布; 数

2、据挖掘; 数据访问; 作者简介:方滨兴 (1960-) , 男, 博士, 中国工程院院士, 主要研究方向为大数据、计算机网络和信息安全。作者简介:贾焰 (1960-) , 女, 博士, 国防科学技术大学教授, 主要研究方向为大数据、网络信息安全和社交网络。作者简介:李爱平 (1974-) , 男, 博士, 国防科学技术大学研究员, 主要研究方向为大数据分析、数据挖掘和网络信息安全。作者简介:江荣 (1984-) , 男, 博士, 国防科学技术大学助理研究员, 主要研究方向为隐私保护和网络信息安全。收稿日期:2015-12-24Privacy preservation in big data:a

3、 surveyFANG Binxing JIA Yan LI Aiping JIANG Rong Beijing University of Posts and Telecommunications; School of Computer, National University of Defense Technology; Abstract: Privacy disclosure issue becomes more and more serious due to big data analysis. Privacy-preserving techniques should be condu

4、ctive to the big data applications while preserving data privacy. Since big data has the characteristics of huge scale, numerous sources and dynamic update, most traditional privacy preserving technologies are not suitable any more. Therefore, the concept of privacy and life cycle protection model o

5、f big data era were introduced firstly. Technical state of big data privacy preservation was elaborated from the points of view of four stages in big data life cycle, i.e. data publishing, storage, analysis and use. The relative merits and scope of application of each technology were investigated as

6、 well. Finally, some important direction and tendency of privacy preservation technologies for big data were suggested.Keyword: big data; privacy preservation; data dissemination; data mining; data access; Received: 2015-12-241 引言随着智慧城市、智慧交通、智能家居、智能电网、智慧医疗、在线社交网络、Web 3.0 等数字化技术的发展, 人们的衣食住行、健康医疗等信息被数

7、字化, 可以随时随地通过海量的传感器、智能处理设备等终端进行收集和使用, 实现物与物、物与人、人与人等之间在任何时候、任何地点的有效连接, 也促成了大数据时代的到来1。大数据蕴含着巨大的商业价值, 目前各行各业都在做大数据分析和挖掘, 企业、运营商等在各自拥有的数据或互联网上发布的数据中发掘潜在价值, 为提高自己的利润或达到其他目的服务。然而, 在享受大数据挖掘得到的各种各样有价值的信息给生产、生活带来便利的同时, 也不可避免地泄露了人们的隐私。例如, 亚马逊公司推出了“未下单先调货”计划, 利用大数据分析技术, 基于对网购数据的关联挖掘分析, 在用户尚未下单前预测其购物内容, 提前发出包裹至

8、转运中心, 缩短配送时间, 但如果处理不好, 很可能会泄露大量用户的隐私;医院在给疾病控制中心等研究部门提供大数据, 进行疾病预防和决策时, 如果不进行数据处理, 则会泄露病人的隐私信息;上市公司在发布自己财务年报或其他新产品信息时, 如果不对发布的数据进行适当处理, 就会给商业上的竞争者以可乘之机。如何在不泄露用户隐私的前提下, 提高大数据的利用率, 挖掘大数据的价值, 是目前大数据研究领域的关键问题, 将直接关系到大数据的民众接受程度和进一步发展趋势。具体而言, 实施大数据环境下的隐私保护, 需要在大数据产生的整个生命周期中考虑两个方面:如何从大数据中分析挖掘出更多的价值;如何保证在大数据

9、的分析使用过程中, 用户的隐私不被泄露。有时数据发布者恶意挖掘大数据中的隐私信息, 此种情况下, 更需要加强对数据发布时的隐私保护, 以达到数据利用和隐私保护二者之间的折中。本文的主要贡献为:首先, 给出了大数据隐私的概念及隐私保护的生命周期模型;然后, 从大数据生命周期的 4 个阶段 (即数据的发布、存储、分析和使用) 出发, 对大数据隐私保护中的技术现状和发展趋势进行了分类阐述, 并对该技术的优缺点、适用范围等进行分析;最后, 对大数据隐私保护技术发展的方向和趋势进行了阐述。2 大数据隐私概念与表示模型2.1 隐私的概念及量化在维基百科中, 隐私的定义是个人或团体将自己或自己的属性隐藏起来

10、的能力, 从而可以选择性地表达自己。具体什么被界定为隐私, 不同的文化或个体可能有不同的理解, 但主体思想是一致的, 即某些数据是某人 (或团体) 的隐私时, 通常意味着这些数据对他们而言是特殊的或敏感的。综上所述认为, 隐私是可确认特定个人 (或团体) 身份或其特征, 但个人 (或团体) 不愿被暴露的敏感信息。在具体应用中, 隐私即用户不愿意泄露的敏感信息, 包括用户和用户的敏感数据。例如, 病人的患病数据、个人的位置轨迹信息、公司的财务信息等敏感数据都属于隐私。但当针对不同的数据以及数据所有者时, 隐私的定义也会存在差别2。例如, 保守的病人会视疾病信息为隐私, 而开放的病人却不视之为隐私

11、;小孩子的定位信息对于父母而言不是隐私, 对于其他人而言却是隐私;有些用户的数据现在是隐私, 可能几十年后就不是隐私。从隐私的类型划分, 隐私可划分为五大类。 财务隐私:与银行和金融机构相关的隐私。 互联网隐私:使某用户在互联网上暴露该用户自己的信息以及谁能访问这些信息的能力。 医疗隐私:患者患病和治疗信息的保护。 政治隐私:用户在投票或投票表决时的保密权。 信息隐私:数据和信息的保护。在隐私数据的整个生命周期中, 都必须对隐私数据进行准确描述和量化, 才能全面地保护隐私数据。隐私可简单描述为:隐私= (信息本体+属性) 时间地点使用对象。可以看出, 信息本体就是拥有隐私的用户, 隐私以信息本

12、体和属性为基础, 包含时间、地点、来源和使用对象等多个因素。为了更好地管理隐私以及进行隐私计算, 明确在何种情况下数据发布者、数据存储方以及数据使用者对哪些隐私数据进行保护, 需要对隐私数据进行量化。在隐私数据的量化过程中, 需要综合考虑用户的属性、行为、数据的属性、传播途径、利用方式等因素, 并对隐私数据的计算和变更有很好的支撑。2.2 大数据生命周期的隐私保护模型在大数据发布、存储、挖掘和使用的整个生命周期过程中, 涉及数据发布者、数据存储方、数据挖掘者和数据使用者等多个数据的用户, 如图 1 所示。在大数据生命周期的各个阶段, 大数据隐私保护模型各部分的风险和技术如下所述。(1) 数据发

13、布数据发布者即采集数据和发布数据的实体, 包括政府部门、数据公司、网站或者用户等。与传统针对隐私保护进行的数据发布手段相比, 大数据发布面临的风险是大数据的发布是动态的, 且针对同一用户的数据来源众多, 总量巨大, 如何在数据发布时, 保证用户数据可用的情况下, 高效、可靠地去掉可能泄露用户隐私的内容, 是亟待解决的问题。传统针对数据的匿名发布技术, 包括 k-匿名、l-diversity 匿名、t-closeness 匿名、个性化匿名、m-invariance 匿名、基于“角色构成”的匿名等方法, 可以实现对发布数据时的匿名保护。在大数据的环境下, 如何对这些技术进行改进和发展, 以满足大数

14、据发布的隐私保护需求, 是需要着重研究的内容。(2) 数据存储在大数据时代, 数据存储方一般为云存储平台, 与传统数据的拥有者自己存储数据不同, 大数据的存储者和拥有者是分离的, 云存储服务提供商并不能保证是完全可信的。用户的数据面临着被不可信的第三方偷窥数据或者篡改数据的风险。加密方法是解决该问题的传统思路, 但是, 由于大数据的查询、统计、分析和计算等操作也需要在云端进行, 为传统加密技术带来了新的挑战。比如, 同态加密技术、混合加密技术、基于 BLS 短签名 POR 模型、DPDP、K nox 等方法, 是针对数据存储时防止隐私泄露而采取的一些方法。(3) 数据挖掘数据挖掘者即从发布的数

15、据中挖掘知识的人或组织, 他们往往希望从发布的数据中尽可能多地分析挖掘出有价值的信息, 这很可能会分析出用户的隐私信息。在大数据环境下, 由于数据存在来源多样性和动态性等特点, 在经过匿名等处理后的数据, 经过大数据关联分析、聚类、分类等数据挖掘方法后, 依然可以分析出用户的隐私。针对数据挖掘的隐私保护技术, 就是在尽可能提高大数据可用性的前提下, 研究更加合适的数据隐藏技术, 以防范利用数据发掘方法引发的隐私泄露。现在的主要技术包括:基于数据失真和加密的方法, 比如数据变换、隐藏、随机扰动、平移、翻转等技术。(4) 数据使用数据使用者是访问和使用大数据以及从大数据中挖掘出信息的用户, 通常为

16、企业和个人, 通过大数据的价值信息扩大企业利润或提供个人生活质量。在大数据的环境下, 如何确保合适的数据及属性能够在合适的时间和地点, 给合适的用户访问和利用, 是大数据访问和使用阶段面临的主要风险。为了解决大数据访问和使用时的隐私泄露问题, 现在的技术主要包括:时空融合的角色访问控制、基于属性集加密访问控制 (attribute-based encryption access control, ABE) 、基于密文策略属性集的加密 (ciphertext policy attribute set based encryption, CP-ASBE) 、基于层次式属性集的访问控制 (hierarchical attribute set based encryption, HASBE) 等技术。下面针对大数据生命周期中的发布、存储、挖掘和使用 4 个过程中的隐私保护技术进行阐述。3 大数据发布隐私保护技术为了从大数据中获益, 数据持有方有时需要公开发布己方数据, 这些数据通常会包含一定的用户信息, 服务方在数据发布之前

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号