大数据安全与隐私保护1

上传人:tang****xu2 文档编号:124240641 上传时间:2020-03-11 格式:PPT 页数:24 大小:1.28MB
返回 下载 相关 举报
大数据安全与隐私保护1_第1页
第1页 / 共24页
大数据安全与隐私保护1_第2页
第2页 / 共24页
大数据安全与隐私保护1_第3页
第3页 / 共24页
大数据安全与隐私保护1_第4页
第4页 / 共24页
大数据安全与隐私保护1_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《大数据安全与隐私保护1》由会员分享,可在线阅读,更多相关《大数据安全与隐私保护1(24页珍藏版)》请在金锄头文库上搜索。

1、大数据安全与隐私保护 作者 冯冯登国 张张敏 李昊 中国科学院软软件研究所 LOGO 大数据安全与隐私保护 大数据的现状 1 大数据研究概述2 大数据带来的安全挑战3 大数据安全与隐私保护关键技术 4 大数据服务与信息安全5 小结 6 LOGO 一 大数据的现状 为什么我们要 研究大数据 在科学界 Nature 和 Science 都推出了大数据专 利对其展开探讨 意味着大数据成为 云计算之后的信息 技术领域的另一个 信息产业增长点 当今 社会信息化和 网络化的发展导致数 据的爆炸式增长 据 统计 平均每秒有 200万的用户在使用 谷歌搜索 各行业 也有大量数据在不 断产生 缺点 安全与隐私问

2、题是人们公认的关键问题 LOGO 二 大数据研究概述 大数据 大规模 高速性 多样性 人 机 物 特点来源 LOGO 大数据分析目标 1 获得知识与推测趋 势 由于大数据包含大 量原始 真实信息 大数据分析能够 有效摒弃个体差异 帮助人们透过现 象把握规律 2 分析掌握个性化特 征 企业通过长时间 多维度的数据积累 可以分析用户行 为规律 为用户提 供更好的个性化产 品和服务 以及更 精确的广告推荐 3 通过分析辨别真相 由于网络中信息的 传递更变便利 所 以网络虚假信息造 成的危害也更大 目前人们开始尝试 利用大数据进行虚 假信息的识别 LOGO 大数据技术框架 数据解释 旨在更好地支 持用

3、户对数据 分析结果的使 用 涉及的主 要技术为可视 化和人机交 互 数据分析 分为三类 计 算架构 查询 与索引 数据 分析和处理 数据采集与预 处理 由于大数据的 来源不一 可 能存在不同模 式的描述 甚 至存在矛盾 因此 在数据 集成过程中对 数据进行清洗 以消除相 似 重复或不 一致的数据是 非常必要的 LOGO 三 大数据带来的安全挑战 大数据中的用户隐私保护 大数据的可信性 如何实现大数据的访问控制 大数据带来的安大数据带来的安 全挑战全挑战 LOGO 大数据带来的安全挑战 用户隐私 保护 大数据的 可信性 如何实现 大数据访 问控制 不仅限于个人 隐私泄漏 还 在于基于大数 据对人

4、们状态 和行为的预 测 目前用户数据 的收集 管理 和使用缺乏监 管 主要依靠 企业自律 威胁之一是伪 造或刻意制造 数据 而错误的数据 往往会导致错 误的结论 威胁之二是数 据在传播中的 逐步失真 1 难以预 设角色 实现 角色划分 2 难以预 知每个角色的 实际权限 LOGO 四 大数据安全与隐私保护关键技术 数据发布匿名保护技术1 社交网络匿名保护技术2 数据水印技术3 数据溯源技术4 角色挖掘技术5 风险自适应的访问控制6 LOGO 数据发布匿名保护技术 v 数据发布匿名保护技术是对大数据中结构化数据实现隐私 保护的核心关键与基本技术手段 v 典型例子 K匿名方案 k 匿名技术要求发布

5、的数据中存在 一定数量 至少为k 的在准 标识符上不可区分的记录 使攻击者不能判别出隐私信息 所属的具体个体 从而保护了个人隐私 K匿名方案 优势 一定程度上保护了 数据的隐私 能够 很好的解决静态 一次发布的数据隐 私保护问题 劣势 不能应对数据连续 多次发布 攻击者 从多渠道获得数据 的问题的场景 LOGO 社交网络匿名保护技术 v 社交网络中典型的匿名保护 1 用户标识匿名与属性匿名 在数据发布时隐藏了 用户的标识与属性信息 2 用户间关系匿名 在数据发布时隐藏了用户间的关 系 v 常见社交网络匿名保护 1 边匿名方案多基于 边的增删 用随机 增删交换便的方法 有效地实现边匿名 不足 匿

6、名边保护 不足 2 基于超级节点对图 结构进行分割和集 聚操作 不足 牺牲数据的 可用性 LOGO 数据水印技术 v 数据水印是指将标识信息以难以察觉的方式嵌入在数据载 体内部且不影响其使用方法 多见于多媒体数据版权保护 也有针对数据库和文本文件的水印方案 v 前提 数据中存在冗余信息或可容忍一定精度的误差 v 案例 1 Agrawal等人基于数据库中数值型数据存在误差容 忍范围 将少量水印信息嵌入到这些数据中随机选取 的最不重要位上 2 Sion等人基于数据集合统计特征 将水印信息嵌入 属性数据中 防止攻击者破坏水印 LOGO v 数据水印技术应用 强健水印类可用于大数据起源证明 脆弱水印类

7、可证明数据的真实性 v 存在的问题 当前方案多基于静态数据集 针对大数据的 高速产生与更新的特性考虑不足 数据水印技术 基于文档结构微调的水印 基于自然语言的水印 基于文本内容的水印 文本 水印 LOGO v 数据溯源技术目标是帮助人们确定数据仓库中各项数据的 来源 也可用于文件的溯源与恢复 v 基本方法 标记法 比如通过对数据进行标记来记录数据 在数据仓库中的查询与传播历史 数据溯源技术 数据溯源与隐私保护之间的平衡 数据溯源技术自身的安全性保护 面临的挑战 LOGO 角色挖掘技术 v 角色挖掘 根据现有 用户 对象 授权情况 设计算法 自动实现角色的提取与优化 v 典型工作 以可视化形式

8、通过用户权限 二维图排序归并 方式进行角色提 取 非形式化 子集枚举以及 聚类的方法提 取角色 基于形式化 语义分析 通 过层次化挖掘 来更准确提取 角色 LOGO 风险自适应的访问控制 v 风险自适应的访问控制是针对在大数据场景中 安全管理 员可能缺乏足够的专业知识 无法准确的为用户指定其可 以访问的数据的情况 v 案例 基于多级别安全模型的风险自适应访问控制解决方 案 基于模糊推理的解决方案等 v 难点 在大数据环境中 风险的定义和量化都比以往更加 困难 LOGO 五 大数据服务与信息安全 基于大数据的应用基于大数据的应用 威胁发现威胁发现 技术技术 认证技术认证技术数据真实数据真实 性分

9、析性分析 安全安全 即即 服务服务 LOGO 基于大数据的威胁发现技术 v 基于大数据 企业可以更主动的发现潜在的安全威胁 v 相较于传统技术方案 大数据威胁发现技术有以下优点 1 分析内容的范 围更大 2 分析内容的时 间跨度更长 3 攻击威胁的 预测性 4 对未知威胁的 检测 LOGO 基于大数据的认证技术 v 身份认证 信息系统或网络中确认操作者身份的过程 传 统认证技术只要通过用户所知的口令或者持有凭证来鉴别 用户 v 传统技术面临的问题 1 攻击者总能找到方法来骗取用户所知的秘密 或窃取用户凭证 2 传统认证技术中认证方式越安全往往意味着用户负担越重 LOGO 基于大数据的认证技术

10、v 基于大数据的认证技术 收集用户行为和设备行为数据 对这些数据分析 获得用户行为和设备行为的特征 进而 确定其身份 1 攻击者很难模拟 用户行为通过认证 2 减小用户负担 3 更好的支持各系 统认证机制的统一 1 初始阶段的认证 由于缺乏大量数据 认证分析不准确 2 用户隐私问题 优点缺点 LOGO 基于大数据的数据真实性分析 v 基于大数据的数据真实性分析被广泛认为是最为有效的方 法 v 优势 1 引入大数据分析可以获得更高的识别准确率 2 在进行大数据分析时 通过机器学习技术 可以发 现更多具有新特征的垃圾信息 v 面临的困难 虚假信息的定义 分析模型的构建等 LOGO 大数据与 安全 即 服务 v 核心问题 如何收集 存储和管理大数据 v 对信息安全企业来说 现实的方式是通过某种方式获得大 数据服务 结合自己的技术特色 对外提供安全服务 v 前景 以底层大数据服务为基础 各个企业之间组成相互 依赖 相互支撑的信息安全服务体系 形成信息安全产业 界的良好生态环境 LOGO 六 小结 大数据带来新的契机的同时也带来了新的安全问题 但它自身也是解决问题的重要手段 论文从大数据的隐 私保护 信任 访问控制等角度梳理了大数据安全与隐 私保护的相关技术 但当今的研究仍不够充分 技术手段 政策法规 更好的解决大数更好的解决大数 据安全与隐私保据安全与隐私保 护问题护问题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号