大数据安全分析建模方案

上传人:飞*** 文档编号:32698764 上传时间:2018-02-12 格式:DOCX 页数:27 大小:566.21KB
返回 下载 相关 举报
大数据安全分析建模方案_第1页
第1页 / 共27页
大数据安全分析建模方案_第2页
第2页 / 共27页
大数据安全分析建模方案_第3页
第3页 / 共27页
大数据安全分析建模方案_第4页
第4页 / 共27页
大数据安全分析建模方案_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《大数据安全分析建模方案》由会员分享,可在线阅读,更多相关《大数据安全分析建模方案(27页珍藏版)》请在金锄头文库上搜索。

1、版本号 V0.2大数据安全分析建模方案(内部版)作 者 姓 名 公 司 名 称 一 级 部 门 二 级 部 门 文 档 日 期 变更记录*变化状态:C创建,A增加,M修改,D删除修改点说明:对变化状态进行简单解释,如增加了某项功能,修改了某个模块等信息。不允许出现“根据评审意见修改等字样”注:当文档未评审通过前版本号标识规则为 V0.X ,第一次评审通过后,版本号直接升级为 V1.0,之后变更按照 V1.X 升级。版本号 变化状态 修改点说明 变更人 变更日期 评审日期V0.1 C 创建 李学进 2016.08.11V0.2 M 细化下一步工作 李学进 2016.08.15目录一、 背景 .1

2、二、 问题描述 .2三、 总体方案 .33.1. 总体逻辑架构 .33.2. 总体数据流 .5四、 方案详述 .64.1. 数据准备 .84.2. 行为建模与异常行为监测 .104.3. 安全趋势预测 .164.4. 其他业务简介 .20五、 工作开展规划 .205.1. 工作内容 .215.2. 角色划分 .225.3. 近期工作 .241一、 背景随着互联网技术的迅猛发展和新应用的不断推广,互联网已经渗透到社会和生活中的方方面面,已经成为政府、企业以及个人工作和生活必须的平台和工具。与此同时,各种病毒、蠕虫、DoS 、特洛伊木马、扫描、欺骗等攻击给网络的正常使用带来了严重的威胁。网络与系统

3、的漏洞给攻击者带来了可乘之机,给政府、公安、银行乃至军事机构带来了极大的损失。除了传统的网络安全,数据安全面临的形式也越来越严峻。层出不穷的数据泄密事件,比如斯诺登事件、如家客户信息泄露事件等,表明数据安全是信息系统需要解决的重要难题。由于现有的安全技术大多将主要精力集中在“防外”, 对外来攻击进行响应, 而对于内部网络受外界未知攻击后, 产生的后果以及内网用户可能进行的破坏性行为考虑得较少,所以相对于网络安全,数据安全需要引起更多的关注。总而言之,最大程度地保护网络、系统和数据的安全已经成为当前一个非常重要非常迫切的任务,是几乎所有的信息系统建设无法回避的工作。2二、 问题描述传统网络安全、

4、数据安全技术,如各类软、硬件防火墙,普遍采用“ 栅栏式”防护策略,给网络和应用系统人为添加了很多限制,任何数据访问动作都需要经过所有预设规则的过滤,不仅影响系统的用户体验,也增加系统运行负担。此外,现有安全软件中,生成一条内置规则,一般需要漏洞发现、攻击模拟、报文分析、特征提取和规则生成等多个阶段。随着攻击手段不断更新,这样的规则生成过程也需要不断重复,耗费大量人力成本。明朝万达提出的“动态安全,集中管控”思想,打破了僵化的传统思维,以全新的视角定义数据安全业务,变被动防御为主动审查,放宽用户准入而加强行为监测,在允许用户正常使用网络的同时, 尽量限制其有害行为。因此, 发现并定位用户的网络、

5、数据有害行为, 然后进行适当的控制就是本方案要解决的主要问题。3三、 总体方案本方案以多源异构、跨域关联环境下挖掘数据深层价值的大数据思维,结合移动警务平台建设中的业务场景,描述实现大数据安全分析的方案。3.1. 总体逻辑架构大数据安全分析系统从逻辑上划分为数据接入、数据存储、数据分析和业务应用 4 个层次,如 图 1 所示:系 统 总 体 逻 辑 结 构 图业务应用层数据分析层数据存储层数据接入层 终 端 安 全监 控 组 件 应 用 监 测组 件 数 据 探 针 网 络 探 针终 端 设备 数 据操 作 系统 数 据应 用 服务 数 据 网 络 流量 数 据终 端 位置 数 据 用 户 行

6、为 数 据 应 用 行为 数 据 数 据 访问 数 据系 统 调用 数 据 应 用 异常 数 据 数 据 源 访问 数 据 设 备 信息 数 据设 备 运 行状 态 数 据 网 络 流量 数 据 用 户 信息 数 据访 问 信息 数 据数 据 聚 合分 析行 为 特 征提 取事 务 特 征提 取行 为 聚 类分 析 行 为 模 型构 建频 繁 模 式挖 掘关 联 规 则挖 掘行 为 回 归分 析 事 务 特 征分 析行 为 序 列分 析用 户 行 为统 计异 常 行 为发 现其 他 系 统资 源异 常 行 为研 判安 全 事 件告 警行 为 策 略管 理安 全 事 件溯 源 系 统 运 维安

7、全 事 件统 计安 全 趋 势预 测 安 全 态 势展 示图 1 大数据安全分析平台总体逻辑架构数据接入层负责从物理上分离的多个数据源接收数据,经过预处理后导入数据存储层。各类数据源产生的数据存储在本地或者通过网络发送给大数据平台。数据接入层提供文件、网络、数据库等多种接口接收数据。4数据存储层负责提供大规模结构化、非结构化数据的分布式存储能力,为后续数据关联、数据挖掘及机器学习等复杂计算提供支持。各类原始数据按照后续数据分析和业务应用要求分别存储在不同的物理或者逻辑库中。经过数据分析层处理后的数据,按照不同业务种类存入对应专题库,通过统一数据服务总线对外提供数据服务。数据分析层负责提供大规模

8、数据分布式处理能力,将原始数据加工成为业务系统可直接使用或展示的数据。数据分析层的能力包括集合碰撞、模型构建等,它将低价值密度的原始数据加工为高价值密度的结果数据,支撑数据服务总线对外提供细粒度的数据服务。业务应用层是大数据安全分析平台的价值体现,直接面对业务需求,解决用户难题,是打动用户的关键所在。53.2. 总体数据流系统架构设计遵循流行的 Lambda 架构,分为实时处理层、批处理层和数据服务层,如 图 2 所示。系 统 总 体 数 据 流 图实 时 处 理 层 数 据 服 务 层 批 处 理 层分 布 式 数 据 缓 存( Kafka)数 据 源大 规 模 数 据 存 储( HDFS)

9、离 线 批 处 理 计 算( M/R)实 时 流 式 计 算( SparkStreaming)高 速 缓 存 数 据 库( Redis)列 式 数 据 库( HBase)索 引 数 据 库( ES)MPP数 据 库( GreenPlum)图 2 大数据安全分析平台总体数据流图原始数据接入平台后复制为两份,分别进入实时处理层和批处理层,最后通过数据服务层为业务系统提供数据支撑。实时处理层提供流式计算能力,以准实时的方式处理数据,如实时监测数据违规操作等。处理后的数据存入对用户提供实时数据服务的高性能数据库,这类数据存储周期较短,一般为一天左右,只存储批处理层还没有产生的数据。批处理层提供海量数据

10、的批处理能力,是数据挖掘、机器学习6等数据深度价值挖掘的主要场所。批处理层包含多个定时任务,以全量或增量方式处理数据集合,处理后的数据存入大规模实时查询数据库。数据服务层提供多层次的数据服务能力,按照业务需求提供数据关联、即席查询、全文查询、结构化查询等多种服务。单纯从数据访问速度的角度来看,数据服务层按照存储容量和存取性能的差异,提供数据存储的多级缓存机制。四、 方案详述与传统安全系统的实现方案不同,本方案对网络和系统危害行为的识别不依赖系统预置的强大安全规则库,而是通过自适应的方式不断进行自我完善。具体来讲,系统初期可以预置少量或者不予置规则,依靠初步异常行为监测模型,发现用户违规行为并经

11、过人工研判生成可信样本数据;这些样本数据用来训练或改进复杂的机器学习模型,而新模型又用来发现新的异常行为。这样,平台的运行过程既是异常行为发现过程,又是自我调整和不断改进的过程。该方案将人类对安全事件的认知融合到平台的精炼过程(通过人工研判步骤) ,但并不完全依赖人类的参与。专业人员的安全知识,也就是对异常行为的研判,会随着平台的运行得到持续放大。更多的人工研判结果会纠正平台对安全事件的认知偏差。通过这样的人机交互和回馈过程,平台形成数据安全事件处理的闭环机制。7行 为 分 析安 全 分 析 数 据 流 图实 时 判 定违 规 操 作行 为 判 定模 型异 常 行 为库数 据 入 库数 据 入

12、 库 原 始 数 据存 储规 则 库可 疑 行 为库人 工 研 判正 常 行 为库异 常 行 为 发现无 法 识 别违 规 /可 疑违 规可 疑多 源 数 据模 型 训 练Random Forest规 则 制 定( 人 工 )按 类 型 数 据分 割聚 类 分 析Cannopy K-means分 类 分 析K-NN流 程 挖 掘Control Flow Discovery分 类 分 析Random Forest按 类 型 特 征选 择图 3 大数据安全分析流程原始数据流被分割为小批次数据流,单批数据首先进入平台的实时判定模块,该模块依靠规则库和行为判定模型进行违规操作识别,可疑数据存入可疑行为库,通过人工研判生成异常行为和正常行为数据,违规数据直接存入异常行为库;实时判定模块无法识别的数据存入分布式存储系统,定期执行的各种数据分析算子对原始数据进行批量分析,识别其中的异常行为并存入可疑行为库;同样地,这些数据经过人工研判环节生成异常行为和正常行为数据,这两类数据作为正、负样本,用来训练或改进高级机器学习模型。除了算法模型以外,平台的异常行为发现和自适应能力,主要8取决于接入数据的质量。接下来,本

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号