基于大数据分析的网络攻击检测奇虎谭晓生

上传人:ji****72 文档编号:45722613 上传时间:2018-06-18 格式:PDF 页数:49 大小:2.47MB
返回 下载 相关 举报
基于大数据分析的网络攻击检测奇虎谭晓生_第1页
第1页 / 共49页
基于大数据分析的网络攻击检测奇虎谭晓生_第2页
第2页 / 共49页
基于大数据分析的网络攻击检测奇虎谭晓生_第3页
第3页 / 共49页
基于大数据分析的网络攻击检测奇虎谭晓生_第4页
第4页 / 共49页
基于大数据分析的网络攻击检测奇虎谭晓生_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《基于大数据分析的网络攻击检测奇虎谭晓生》由会员分享,可在线阅读,更多相关《基于大数据分析的网络攻击检测奇虎谭晓生(49页珍藏版)》请在金锄头文库上搜索。

1、基于大数据分析的 网络攻击检测 2013年 10月24日 土人谭晓生 目录 CONTENTS 01 02 03 网络安全挑战 大数据基础设施实践 目录 基于大数据的网络攻击检测实践 频频发生的安全事件 2013年10月,慧达驿站软件漏洞导致连锁酒店数据库拖库事件:2000万条 开房记录泄露 2013年7月,Java Struts 2报高危漏洞,传某著名电商被拖库,超过5亿用 户信息被盗 2013年3月20日,韩国3.2万台终端MBR被删除,3家电视台、2家银行系统 瘫痪 2012年7月,雅虎服务器被黑 45.3万份用户信息遭泄露 2012年6月,LinkedIn证实部分用户密码遭泄露 需重置密

2、码 2012年4月,VMware确认源代码被窃 2012年4月,DNSChanger肆虐 全球400万台电脑被感染 2012年1月,赛门铁克公告证实两款企业级产品源代码被盗 2012年1月,美国电子商务网站Zappos遭黑 2400万用户信息被窃 2011年12月,CSDN用户信息泄漏,多个网站遭遇类似情况 2011年9月,日本三菱旗下军工企业遭黑客入侵 2011年4月,索尼PSN平台7700万用户数据泄漏 2010年,伊朗核电站遭受震网病毒攻击,伊朗核计划被延迟3年 重要假设 系统有 未发现的 漏洞 系统有 已发现的 漏洞 未修补 系统 已经 被渗透 员工 不可靠 如何发现有漏 洞被利用/攻

3、 击行为检测? 找出哪些漏洞 还没有修补, 进行修补 如何发现系 统已经被渗 透了? 清理 如何重现攻 击过程? 如何溯源? 如何发现员 工的异常行 为? 如何检测/拦 截来自内网 的攻击? 目录 CONTENTS 01 02 03 网络安全挑战 大数据基础设施实践 目录 基于大数据的网络攻击检测实践 一些数字 100 GB 50 TB 10 S 4000亿 What will be talked? Web异常行为分类 一丁点http web访问数字化 异常行为的识别 Web异常行为分类 连接型攻击,比如扫描,cc攻击等 机器抓取,爬虫bot等 Web攻击 常见的web攻击 XSS攻击 SQL

4、注入攻击 文件包含攻击 Webshell访问 敏感信息探测 一丁点http Http首部: 方法 协议 域名 请求URI 状态码 其他 一丁点http 方法: HEAD PUT GET POST TRACE 一丁点http 状态码: 1XX 信息 2XX 成功 3XX 重定向 4XX 客户端错误 5XX 服务器错误 URI /read.php ? page=1 MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; 360SE)” 211.3.2

5、.3 IP - - time method uri protrol retcode len ref user-agent “ domain x-forward-ip 上网行为记录 Web访问数字化 访问源ip,domain,uri 合并访问到session 计算session里的访问特征 1.访问次数 2.访问深度 3.访问宽度 4.Agent个数 5.Get文件访问比例 6.静态文件访问比 7.非200请求比 访问次数 同一个 session内 对相同域 名的请求 次数 访问深度 URI PATH里“”的 数量 大部分访问深度都不 会很深 访问宽度 URI: /a/b /a/c a b c

6、宽度2 静态文件访问比 Jpg js css gif bmp ico Tif etc 非200访问请求比 大部分网站请求 返回应该都是正 常的 非200访问说明 存在问题 Scan扫描行为 深 度宽 度静 态 文 件 比非2XX 爬虫行为 深 度宽 度静 态 文 件 比非2XX 攻击行为 URI: /pf/go.php?a=/go.php/component/1&e lementstips=%3C%21- %20php%20-%3E%3C%21- %20print(md5(base64_decode(MzYw d2Vic2Nhbg)%3B%20- %3E%3C%21-%20%2Fphp%20-

7、 %3E 不同域名下出现同一 URI次数 相同域名下不同URI出 现的相同value次数 相同域名下相同URI不 同参数下出现相同值 次数 攻击特征识别 攻击模式的识别 访问行为分析 网络流查询 机器识别异常网络行为 机器识别异常网络行为 攻击位置与频度的展示 机器识别异常网络行为 机器分类学习 海量数据处理 分布式并行计算 半监督学习,SVM,决策树,神经网络 目录 CONTENTS 01 02 03 网络安全挑战 大数据基础设施实践 目录 基于大数据的网络攻击检测实践 万兆snort入侵监测系统 万兆snort入侵监测系统 万兆网络包捕 大数据存储与计算 旁路阻断 实现效果 万兆网络下入侵

8、监测 万兆网络下全网旁路阻断 多节点数据云存储与计算 万兆snort 万兆snort入侵监测系统 旁路web实时监测系统 万兆网络包捕与tcp重组 大数据存储与计算 高性能分布式实时计算 机器学习与规则提取 威胁模型的建立 实现效果 旁路waf功能,对web攻击识别与旁路阻断 自动发现与提取攻击特征,识别一些apt行为 分布式计算存储方案,满足系统高可用性与计算扩展性 基于温度变化的威胁模型 旁路web实时监测系统 平台 360主要大数据存储和计算平台 1 分布式文件系统 (HDFS) 存存 储储 计计 算算 分布式K/V系统 (Cassandra) M/R计算系统 (MR) 实时计算系统 (

9、Storm) 科学计算系统 (Euler) 分布式表格系统 (HBase) 数据存储平台 分布式文件系统(HDFS) 扩展灵活,并发吞吐高 存储离线大文件 单个集群1500台 总规模超过3000台 数据存储平台 分布式表格系统(HBase) 列灵活增减,集群扩展容易 存储离线结构化数据 单个集群500台 数据存储平台 分布式K/V系统(Cassandra) 无中心,服务稳定 在线存储业务 单个集群150台 总规模超过3000台 跨IDC备份修复 数据计算平台 M/R平台 数据计算平台 科学平台(Euler) MPI通信框架 分布式向量 作业管理&任务调度 分类 分布式矩阵 计算框架 聚类 回归

10、 作业层 算法层 框架层 通信层 PageRank 广告排序 HDFS Cassandra 业务 欧 拉 计 算 平 台数据 图片消重 数据计算平台 Euler平台算法库 聚类 k-means 凝聚层次聚类 minhash Disjoint-Set Query Clustering 分类 随机森林 GBDT LLGC 朴素贝叶斯 主题模型 plsa Lda 协同过滤 User-based Item-based 回归 逻辑回归 机器翻译 SMT EMBT 其它 PageRank:网页排序 ALS:矩阵分解 数据计算平台 Euler平台公司应用 业务业务 算法算法 作用作用 网页搜索 PageRa

11、nk 计算网页重要程度 图片搜索 Minhash、Disjoint Set聚类 图片去重,计算图片排序权重 广告相关性主题计算 PLSA 计算广告所属的主题 广告点击率预估(ctr预估) liblinear、逻辑回归 广告排序 导航猜你喜欢 PLSA 计算推荐结果 导航垃圾网页识别 逻辑回归 生成识别规则 问答term权重计算 GBDT 计算term权重 问答问题匹配 SMT 根据用户输入,匹配题库中的问 题 白名单以白加白 矩阵乘法 根据已有的白文件,计算出新白 文件 白名单规则匹配 向量乘矩阵 发现新的加白规则 开机耗时分析 K-means 找出开机耗时慢的阶段 网络攻击检测 K-means 生成识别规则 数据计算平台 实时计算平台 输入: RPC, MQ 输出: 同步返回,写入存储 MQ RPC 存储 规模 存储规模 存储服务器超过9,000台,硬盘超过100,000块 存储数据量超过260PB Hadoop集群文件个数达4-5亿 Cassandra集群文件数超过100亿 计算规模 计算服务器超过5633台,CPU核数超过40,000 每天计算任务数超过20,000-30,000个,参与计算的数 据量超过1.5PB 安全上网,从360开始

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号