云时代下的大数据安全技术

上传人:小** 文档编号:34121635 上传时间:2018-02-21 格式:DOC 页数:9 大小:110KB
返回 下载 相关 举报
云时代下的大数据安全技术_第1页
第1页 / 共9页
云时代下的大数据安全技术_第2页
第2页 / 共9页
云时代下的大数据安全技术_第3页
第3页 / 共9页
云时代下的大数据安全技术_第4页
第4页 / 共9页
云时代下的大数据安全技术_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《云时代下的大数据安全技术》由会员分享,可在线阅读,更多相关《云时代下的大数据安全技术(9页珍藏版)》请在金锄头文库上搜索。

1、云时代下的大数据安全技术 杨曦 GUL Jabeen 罗平 清华大学信息系统安全教育部重点实验室 福州大学阳光学院计算机工程系 摘 要: 认为云计算结合大数据,是时代发展的必然趋势。提出了保障大数据安全的方法和技术,方法包括:构建云环境下的大数据信息安全体系,建立并研究基于Hadoop 的大数据安全架构等;技术包括:基于大数据的威胁发现技术、大数据真实性分析技术、基于大数据的认证技术、基于大数据的安全规则挖掘技术,以及防范高级持续性威胁(APT)攻击的技术。认为大数据带来许多新的安全问题和挑战,但它本身也是解决问题的重要手段,需要进一步地研究。关键词: 大数据; 云计算; 大数据安全; APT

2、 攻击; 数据挖掘; 作者简介:杨曦,清华大学博士生;主要研究领域为软件可信性、软件工程理论与系统、数据库理论;先后主持和参加国家级基金项目 5 项,省部级项目 10 项;获得 2 项国家专利,发表论文 10 余篇。作者简介:GUL Jabeen,清华大学巴基斯坦籍博士生;主要研究领域为信息安全;已发表论文 6 篇,其中 EI/SCI 收录 3 篇。作者简介:罗平,清华大学教授;主要研究领域为网络空间安全;先后主持和参加国家级项目和国家科学基金项目 20 余项,获得教育部提名国家科学技术自然科学奖 2 等奖;已发表论文 50 余篇,其中被 SCI 检索 30 余篇。收稿日期:2015-11-1

3、0基金:国家自然科学基金(60973142)Security Technology of Big Data in the Cloud EraYANG Xi GUL Jabeen LUO Ping The Key Laboratory for Information System Security, Ministry of Education,Tsinghua University; Abstract: The combination of cloud computing and big data is an inevitable trend. In this paper, methods an

4、d techniques for ensuring the security of large data are presented. These methods include: building a large data information security system in a cloud environment and establishing and studying the big data security architecture based on Hadoop. These techniques include: threat discovery based on bi

5、g data, big data authenticity analysis, authentication based on big data, security rule mining based on big data, and preventing advanced persistent threat(APT) attack.Big data creates many new security problems and challenges, but it is also an important means to solving the problem, which needs fo

6、r further research.Keyword: big data; cloud computing; big data security; APT attack; data mining technology; Received: 2015-11-10随着云时代的来临,大数据也吸引了越来越多学术界和工业界的关注。从 20 世纪 90 年代“数据仓库之父”Bill Inmon 率先提出“ 大数据”的概念,到 2011 年麦肯锡全球研究院(MGI)发布了关于大数据的详尽报告,直至 2012 年美国奥巴马政府公布了“大数据研发计划”,才使得大数据真正成为许多学科的重点研究课题。大数据科学的基

7、础研究已经成为当今社会的研究热点。英国牛津大学教授维克托迈尔舍恩伯格,在他的大数据时代:生活、工作与思维的大变革一书中,深刻地阐述了大数据所带来的三大变革,即思维变革、商业变革和管理变革。大数据带来更多的是思维变革 样本数据或局部数据向全体数据的变革,结果数据向过程数据的变革,静态存储数据向动态流处理数据的变革。随着大数据技术的不断发展,许多传统的信息安全技术也受到了挑战。在大量数据产生、收集、存储和分析的过程中,既会涉及一些传统安全问题,也会涉及一些新的安全问题,并且这两类问题会随着数据规模、处理过程、安全要求等因素而被不断放大。而大数据的 4V(大量、高速、多样、真实性)+1C(复杂)特征

8、,也使得大数据在安全技术、管理等方面面临新的安全威胁与挑战1。1 大数据安全技术发展现状谈到大数据,不可避免地就要提及云计算技术,它们就像一枚硬币的正反面一样密不可分。云计算结合大数据,是时代发展的必然趋势。云计算为大数据提供了存储场所、访问渠道、虚拟化的数据处理空间,具有盘活数据资产价值的能力。另一方面,大数据技术通过挖掘价值信息2进行预测分析、策略决断,为国家、企业甚至个人提供决策和服务。作为一个云化的大数据架构平台,Hadoop 自身也存在着云计算面临的安全风险,企业需要实施基于身份验证的安全访问机制,而 Hadoop 派生的新数据集也同样面临着数据加密问题。云端大数据从使用频率上有静态

9、数据加密机制和动态数据加密机制两种3。静态数据加密机制与传统加密一样,有对称加密算法和非对称加密算法两种。而动态数据加密机制方面近年来则有较多的论述,较为常用的是同态加密机制4。对加法同态的加密算法有 Paillier 算法5,对乘法同态的加密算法有 RSA 算法,还有对加法和简单标量乘法同态的加密算法,如 IHC和 MRS 算法6。 Craig Gentry 提出一种基于理想格的全同态加密算法7,实现了全同态加密所有属性的解决方案。同样,大数据依托的非关系型数据库(No SQL)技术没有经过长期发展和完善,在维护数据安全方面也未设置严格的访问控制和隐私管理,缺乏保密性和完整性特质。另一方面,

10、No SQL 对来自不同系统、不同应用程序及不同活动的数据进行关联,也加大了隐私泄露的风险。大数据时代,想屏蔽外部数据商挖掘个人信息是不可能的,大数据隐私问题堪忧。Itani 提出的协议能够在云计算环境下保证用户的隐私8,Creese 的方案有效地解决了企业云部署中的隐私安全问题9。除了常见的基于加密体制的数据存储和数据处理的隐私性保护方案外,A. Parakh 等于 2011 年和 2013 年分别提出了基于空间有效性的机密共享隐式机制10及运用隐式机制的云端计算机制11。 针对非结构化数据(比如社交网络产生的大量数据)的隐私保护技术也是云时代下大数据安全隐私保护的重大挑战,典型的匿名保护需

11、求为用户标识匿名、属性匿名(也称点匿名)及边匿名(用户间关系匿名)。目前边匿名方案大多是基于边的增删12,还有一个重要思路是基于超级节点对图结构进行分割和聚集操作13。2 基于大数据的安全技术及发展趋势新形势下的大数据安全也面临诸多新的挑战,在大数据产业链的各个环节,安全问题无处不在。面对一系列的安全风险和关键问题,如何保障大数据安全,并在信息安全领域有效利用,是学术界和工业界都需要认真对待和解决的问题。2.1 构建云环境下的大数据信息安全体系只有在正确完整的安全体系指导下,大数据信息安全建设所需的技术、产品、人员和操作等才能真正发挥各自的效力。大数据应用过程通常划分为采集、存储、挖掘、发布

12、4 个环节,它们的安全性可通过下面一些技术和方法实现:(1)数据采集阶段的安全问题主要是数据汇聚过程中的传输安全问题,需要使用身份认证、数据加密、完整性保护等安全机制来保证采集过程的安全性。传输安全主要用到虚拟专用网络(VPN)和基于安全套接层协议 VPN(SSL VPN)技术。(2)数据存储阶段需要保证数据的机密性和可用性,提供隐私保护、备份与恢复技术等。这个阶段可能用到的技术有:基于数据变换的隐私保护技术(包括随机化、数据交换、添加噪声等)、基于数据加密的隐私保护技术、基于匿名化的隐私保护技术(通常采用抑制、泛化两种基本操作)、静态数据加密机制(数据加密标准(DES)、高级加密标准(AES

13、)、IDEA、RSA、El Gamal 等)、动态数据加密机制(同态加密)、异地备份、磁盘阵列(RAID)、数据镜像、Hadoop 分布式文件系统(HDFS)等。(3)数据挖掘阶段需要认证挖掘者的身份、严格控制挖掘的操作权限,防止机密信息的泄露。这个阶段涉及到的技术有:基于秘密信息的身份认证、基于信物的身份认证技术、基于生物特征的身份认证技术、自主访问控制、强制访问控制、基于角色的访问控制等。(4)数据发布阶段需要进行安全审计,并保证可以对可能的机密泄露进行数据溯源。这个阶段的技术可能涉及到:基于日志的审计技术、基于网络监听的审计技术、基于网关的审计技术、基于代理的审计技术、数据水印技术等。2

14、.2 基于 Hadoop 的大数据安全架构Hadoop 是一种分布式数据和计算的框架,在全球范围内已成为大数据应用最为广泛的技术架构。当前,Hadoop 已成为工业界和学术界进行云计算应用和研究的标准平台。分布式文件系统使大规模并行计算成为可能,但堆栈各层的集成以及数据节点与客户端/资源管理机构之间通信,都会引入新的安全问题。图 1 是Hadoop 核心 HDFS 的架构,在不破坏大数据集群的基本功能及大数据本身必要特点的前提下,我们先来分析这种架构下的安全问题及隐患并给出相应安全解决建议。在高度分布式数据集群中,很难验证异构平台之间安全的一致性,即不同的数据结点的数据安全的整体性和一致性是分

15、布式计算的痛点。而与传统集中式数据安全模型不同的是,大数据集群内的数据是流动的,有多个副本,在不同节点间移动以确保冗余和弹性的机制导致数据很难及时、准确地定位存储位置,无法获知数据备份个数,这加大了副本安全保护机制设计上的难度。对于数据访问,大多数大数据环境提供了 schema 级别的访问控制,但没有更细的粒度,虽然在大数据环境中可以借鉴安全标签和其他高级属性,但需要应用设计者将这些功能集成到应用和数据存储中去。对于节点间的通信,Hadoop 和绝大多数组件之间的通信是不安全的,它们使用传输控制协议(TCP)/IP 之上的远程过程调用协议(RPC),并没有嵌入安全传输层协议(TSL)和 SSL

16、 等安全机制。 另外,客户端可以直接与资源管理者及节点进行交互,增加了恶意代码或链接发送的概率,也难以保证客户端免受数据节点的攻击。最后,最为重要的是大数据栈自身设计并没有考虑安全机制。这些都是基于 HDFS 架构的大数据环境的安全隐忧。图 1 Hadoop 的 HDFS 架构 下载原图基于 Hadoop 的大数据架构,其安全机制可以通过下面一些方法和技术得以保证:(1)使用 Kerberos 进行节点验证。Kerberos 是一个最有效的安全控制措施之一,并且可以集成到 Hadoop 基础设施中。其可有效验证服务间通信,阻断集群中的恶意节点和应用程序,保护 Web 控制台的访问,使得管理通道难以被攻击。(2)对于恶意客户端发起的获取文件请求,可以通过使用文件层加密对数据加以保护。被恶意访问的文件是不可读的磁盘映像,且文件层加密提供一致安全保护,有些产品甚至提供内存加密保护。(3)使用密钥管理服务分发密钥和证书,并为每个组应用程序和用户设置不同密钥,可以提高密钥的安全性,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号