数据脱敏方案V1.1

上传人:xmg****18 文档编号:108095765 上传时间:2019-10-22 格式:DOC 页数:26 大小:1.45MB
返回 下载 相关 举报
数据脱敏方案V1.1_第1页
第1页 / 共26页
数据脱敏方案V1.1_第2页
第2页 / 共26页
数据脱敏方案V1.1_第3页
第3页 / 共26页
数据脱敏方案V1.1_第4页
第4页 / 共26页
数据脱敏方案V1.1_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《数据脱敏方案V1.1》由会员分享,可在线阅读,更多相关《数据脱敏方案V1.1(26页珍藏版)》请在金锄头文库上搜索。

1、. . . .大数据脱敏方案 2017-1-15更改履历版本号修改编号更改时间更改的图表和章节号更改简要描述更改人批准人目录1. 概述41.1. 编写目的41.2. 数据脱敏的定义41.3. 电网数据脱敏需求42. 脱敏方案52.1. 脱敏算法52.1.1. K-Anonymity (K-匿名)52.1.2. L-Diversity52.1.3. T-Closeness52.2. 脱敏规则53. 电网应用场景63.1. 云平台功能设计73.2. 大数据平台功能设计71. 概述1.1. 编写目的本文档描述了数据脱敏的研究成果和方法论。旨在为具有数据脱敏需求的开发人员和项目提供参考和借鉴。1.2.

2、 数据脱敏的定义敏感数据一般指不当使用或未经授权被人接触或修改会不利于国家利益或不利于个人依法享有的个人隐私权的所有信息。工业和信息化部编制的信息安全技术 公共及商用服务信息系统个人信息保护指南明确要求,处理个人信息应当具有特定、明确和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意,应当在达成个人信息使用目的之后删除个人信息。这项标准最显著的特点是将个人信息分为个人一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。对于个人一般信息的处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用。但对于个人敏感信息,则需要建立在明示同意的基础上,在收集

3、和利用之前,必须首先获得个人信息主体明确的授权。这项标准还正式提出了处理个人信息时应当遵循的八项基本原则,即目的明确、最少够用、公开告知、个人同意、质量保证、安全保障、诚信履行和责任明确,划分了收集、加工、转移、删除四个环节,并针对每一个环节提出了落实八项基本原则的具体要求。数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。敏感数据,又称隐私数据,常见的敏感数据有: 姓名、身份证号码、

4、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战个人隐私信息 的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如 何保护人的隐私信息,也将是数据脱敏必须解决的难题。1.3. 数据脱敏需求随着国家电网数据应用的不断深入,有许多应用需要和外部系统对接,数据需要对外

5、提供服务才能体现出它的价值,大数据时代是数据融合的时代,如何在数据融合的过程中,保证数据在开发、测试、生产、应用等各个环节的安全,成为信息安全部门的重要任务。国家电网数据脱敏需求包括:通过数据抽取、数据漂白、数据混淆等处理过程,用来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数据处理过程满足国家电网的敏感数据防护的政策规定。具体脱敏需求包括: 防止生产库中的敏感数据泄漏通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用,防止生产库中的敏感数据泄漏。 保证测试、开发、应用阶段的数据关联性 通过脱敏策略和算法,保证脱敏数据有效性(保

6、持原有数据类型和业务格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)。以提升测试、开发、应用环节的数据真实性和可用性。 保证数据维护和数据共享的安全 对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者的不同访问策略,满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。 保证隐私数据管理的政策合规性 数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行,脱敏规则符合国家电网的数

7、据管理要求。2. 脱敏方案2.1. 脱敏流程数据脱敏的流程一般分为:敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤,结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据脱敏效果。2.1.1. 敏感数据发现敏感数据的发现分为人工发现和自动发现两种。对于国家电网相对固定的业务数据,可以采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据一般数据结构和数据长度不会有变化,大部分为数值型和固定长度的字符。比如:单位代码、户号、户名、用电地址等标识列,针对这些数据可以通过人工指定脱敏规则和不同的数据访问策略,保证敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特

8、征,借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别可以减少工作量和防止遗漏。一般采用自动发现为主,结合人工发现和审核,来完成敏感数据的发现和定义,最终形成完善的敏感数据字典。2.1.2. 敏感数据梳理在敏感数据发现的基础上,完成敏感数据列、敏感数据关系的调整,以保证数据的关联关系。通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法,针对不同的数据类型进行数据掩码扰乱。2.1.3. 脱敏方案制定对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以制定最优方案。

9、2.1.4. 脱敏任务执行脱敏任务的停止、启动、暂停等操作,支持任务并行处理,支持脱敏任务的中断续延等。2.2. 脱敏算法2.2.1. 脱敏算法特征通常根据不同数据特征选择不同的脱敏算法,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email 地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法通常包括屏蔽、变形、替换、随机、格式保留加密(FPE)和强加密算法(如AES )。脱敏算法具有如下特性: 同义替换使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。 部分数据遮蔽将原数据中部分或全

10、部内容,用“*”或“# ”等字符进行替换,遮盖部分或全部原文。 混合屏蔽将相关的列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系,例如,城市、省、邮编在屏蔽后保持一致。 确定性屏蔽确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值(如,客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一个值。 可逆脱敏确保脱敏后的数据可还原,便于将第三方分析机构和内部分析团队基于脱敏后数据上的分析的结果还原为业务数据。2.2.2. K-Anonymity (K-匿名)算法描述: 要求对于任意一行记录,其所属的相等集内记录数量不小于k,即至少有k-1条记录半标识列属性值与该条记录相同。 理论

11、上来说,对于 K-Anonymity 数据集,对于任意记录,攻击者只有 1/k 的概率将该记录与具体用户关联。算法步骤: 先移除标识列 泛化半标识列算法优缺点: 优点:可以用于保护个人标识泄漏的风险。 缺点:容易受到链接式攻击,无法保护属性泄露的风险。对于 K-Anonymity 的数据集,攻击者可能通过 同质属性攻击 与 背景知识攻击 两种方式攻击用户的属性信息。对移除标识列的数据根据半标识列进行分组,每组最少有 k 条记录,每组中至少有 k-1 条记录的半标识列的值与该记录相同。2.2.3. L-Diversity算法描述: 如果对于任意相等集内所有记录对应的敏感数据的集合,包含 L 个

12、“合适” 值,则称该相等集是满足 L-Deversity 。如果数据集中所有相等集都满足 L-Deversity , 则称该数据集满足 L-Deversity。 相对于K-Anonymity 标准,符合L-Deversity 标准的数据集显著降低了属性数据泄漏的风险。对于满足L-Derversity 的数据集,理论上,攻击者最多只有 1/L 的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。 通过插入干扰数据构造符合 L-Diversity 的数据集。在K-Anonymity的基础上,每个数据集中,其敏感信息列有 L 个不同的值,攻击者只有 1/L 的几率获得正确的敏感信息。2.2.4.

13、 T-Closeness算法描述:L-Diversity 是通过约束 P 的 diversity 属性,尽量减少B0 和B2之间的信息量差距,差距越小,说明隐私信息泄漏越少。T-Closeness 约束则期望减少B1 和 B2 之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相等类满足 T-Closeness约束。如果数据集中的所有相等类都满足 T-Closeness,则称该数据集满足T-Closeness.T-Closeness约束限定了半标识列属性与敏感信息的全局分布之

14、间的联系,减弱了半标识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。不过同时也肯定导致了一定程度的信息丢失,所以管理者通过T值的大小平衡数据可用性与用户隐私保护。2.2.5. 算法用例2.2.5.1原始数据我们以用采用户数据为例:ORG_NO(单位代码)CONS_NO(户号)CONS_NAME(户名)ELEC_ADDR(用电地址)ELEC_TYPE_CODE(用电类型)LINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP334083001103520128944浙江长兴县供电公司浙江省湖州市长兴县泗安镇塔上行政村张家湾自然村402195200004710AC00101315334083001103520093806浙江奇碟汽车零部件有限公司浙江省湖州市长兴县泗安镇五里渡行政村五里渡新村自然村100195200003720AC001011880334083001103520113877华能长兴光伏发电有限责任公司浙江省湖州市长兴县泗安镇

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号