基于机器学习的批量网页篡改检测方法研究

上传人:nt****6 文档编号:438114 上传时间:2017-02-24 格式:PPT 页数:12 大小:1.49MB
返回 下载 相关 举报
基于机器学习的批量网页篡改检测方法研究_第1页
第1页 / 共12页
基于机器学习的批量网页篡改检测方法研究_第2页
第2页 / 共12页
基于机器学习的批量网页篡改检测方法研究_第3页
第3页 / 共12页
基于机器学习的批量网页篡改检测方法研究_第4页
第4页 / 共12页
基于机器学习的批量网页篡改检测方法研究_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《基于机器学习的批量网页篡改检测方法研究》由会员分享,可在线阅读,更多相关《基于机器学习的批量网页篡改检测方法研究(12页珍藏版)》请在金锄头文库上搜索。

1、基于机器学习的批量网页 篡改检测方法研究 、研究背景 二、网页篡改检测方法 三、性能分析及优化 四、总结 近年来,随着互联网的普及, 网站 已成为政府、学校、企业等组织机构信息发布和传播的 重要途径 ,网站 安全 成为网络安全的重要领域 。 2015年我国境内近 篡改 高效、准确、具有良好扩展性 的网页篡改检测方法是应对网页篡改问题的有效途径。 以 北京大学所有注册网站 为 研究对象,通过抓取网站首页面的 所有历史信息 ,对抓取数据进行分类建立对应的检测规则,综合判断网页是否存在 篡改。 一、研究背景 页篡改检测方法 页篡改检测方法 检测器设计;两个重要的参数: 检测数据集窗口大小 ; 判别器

2、阈值 页篡改检测方法 检测器 检测特征 是否需要训练 树形结构检测器 树结构、节点种类 是 文本聚类检测器 正文文本 是 特征数量检测器 代码行数、链接数量 图片数量、文件大小 是 否 图片检测器 相似度、关键字识别 否 篡改特征检测器 含有敏感关键字、图片数量为 0 部分长度为 0、不含任何标签 否 能分析及优化 使用 根据真实的网页篡改案例进行设定的 篡改集合进行篡改实验确定参数。在 实验中,以 误报率和漏报率 作为评测实验结果的指标 。在 选定结果 判别器阈值为 2的情况下,不同检测数据集窗口长度 能分析及优化 在 选定检测 数据集窗口为 11的情况下,不同结果判别器阈值网页篡改检测的误

3、报率和漏报 率如图。 最终本文选定的 判别器阈值为 2,检测数据集窗口大小为 11。 能分析及优化 系统运行时间分析,网页抓取时间情况,网页 抓取、训练、检测花费时间分布, 抓取平均耗时 训练平均耗时 检测平均耗时 能分析及优化 可检测网页数 ,系统对于检测的网页数仅仅受限于运行环境的硬件影响 ,当 检测网页达到一定数量时,可以通过增加系统资源,甚至使用多台机器进行篡改检测。 检测时间间隔 ,如何在发生篡改后及时地通过检测发出报警,是篡改检测一个非常关键性的因素,理论上某个网页的检测 时间间隔 只 要 大于该网页的抓取时间和检测时间之 和即可, 但是检测间隔太小会造成系统资源的浪费,本文将检测

4、间隔设为 30分钟。 检测参数的定制化 ,可以为不同的网页设定不同的检测参数,比如有些网页动态更新比较频繁 ,可以提高 训练的频率,比如在检测若干次之后自发进行一次训练 ;静态 网站,可以适当提高检测频率,将 30分钟缩短至 20分钟,甚至 10分钟。 检测器的调整 ,根据黑客常用的一些篡改手段,可以随时修改或者增加系统的检测器的数量以及各个检测器的检测特征。 结 提出 了一种基于机器学习的批量网页篡改检测方法,不需要对网站服务器做任何形式的修改,只需提供网页的 过抓取网页的相关 资源, 根据历史 信息进行 训练,最后综合多个检测器的检测结果来判定网页是否发生篡改。 方法 对于检测的网页在数量上没有限制,检测时间间隔可以根据需要在合理的范围内调整,经过初步的实验验证,在检测数据集窗口为 11,判别器阈值为 2的情况下误报率为 漏报率为

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号