基于决策树的钓鱼网页的识别方法

资源描述

《基于决策树的钓鱼网页的识别方法》由会员分享，可在线阅读，更多相关《基于决策树的钓鱼网页的识别方法（7页珍藏版）》请在金锄头文库上搜索。

1、基于决策树的钓鱼网页的识别方法魏盛娜盛超东华理工大学信息工程学院摘要：现如今许多不法分子利用钓鱼网站盗取用户的个人信息, 窃取用户的财产, 对用户造成巨大损失。因此该文通过使用决策树学习算法, 提取其中的关键词, 分析并建立钓鱼网站特征模型, 对未知网站进行判别。CART 是一种决策树算法, 但 CART 决策树的多数表决法会屏蔽小类数据类型的影响, 因此该文根据这点对CART 决策树进行改进, 引入代价函数, 不断地利用迭代和最小均方误差调整特征的权重增加惩罚。实验结果表明, 改进后的决策树在对未知网站进行分析, 成功地降低了负样本的错误率, 提升了识别率。关键词：决策树; U

2、RL 识别; 最小均方误差; 代价函数; 作者简介：魏盛娜 (1993) , 女, 江西南昌人, 硕士研究生, 研究方向为web 安全;作者简介：盛超 (1994) , 女, 江西南昌人, 硕士研究生, 研究方向为移动互联网数据安全。收稿日期：2017-10-08Recognition Method of Fishing Web Pages Based on Decision TreeWEI Sheng-na SHENG Chao Information Engineering Institute, East China University of Technology; Abstract：

3、Now many criminals use phishing sites to steal the users personal information, steal the users property, causing huge losses to the user. Therefore, this paper uses the decision tree learning algorithm to extract the keywords, analyze and establish the phishing website feature model, and judge the u

4、nknown website. CART is a decision tree algorithm, but the majority voting method of CART decision tree will shield the influence of small class data type. Therefore, this paper improves the CART decision tree according to this point, introduces the cost function, and makes use of iteration and mini

5、mum mean square error Adjust the weight of the feature to increase the penalty. The experimental results show that the improved decision tree has successfully reduced the error rate of negative samples and improved the recognition rate in the analysis of unknown websites.Keyword： decision tree; URL

6、identification; least-mean-square; cost function; Received： 2017-10-081 背景钓鱼网站通常是指伪装成合法网站, 窃取用户提交的账号、密码等私密信息的网站。目前已出现 10 余种反钓鱼工具, 本文选用决策树方法对钓鱼 URL 特征进行识别, 国内外学者也提出了很多决策树的相关改进算法:ID3 算法是 1986 年由 Quinlan 提出的, 是基于信息增益的选择1。J.Ma2等人分析可疑 URL 的词汇和主机属性采用词袋模型表示特征, 获得了成千上万的特征, 运用特征匹配加上 ID3 算法检测钓鱼网站。但 ID3 算法也存在缺

7、陷, 因为包含较多属性值的特征所含的信息增益一般会越高, 所以 ID3 优先会选择有较多属性值的特征, 从而构建的决策树往往不是最优的, 只可以用于处理离散数据, 不能用于处理连续数据。C4.5 算法是 Quinlan 本人对 ID3 算法的改进3, 引入了信息增益比 (Gain Ratio) 作为选择的准则。来自 John Hopkins 大学的 Sujata 与 Google 的研究员用 URL 特征做钓鱼模式识别进行了尝试4, 运用改进后的 c4.5 算法, 取得了很好的成果。但在决策树生成过程中, 频繁的对训练的数据集排序和扫描, 增加了算法的时间复杂度。2 CART 决策树CART

8、(Classification And Regression Tree) 算法由 L.Breiman, J.Friedman, R.Olshen 和 C.Stone 于 1984 年提出5, 即分类回归算法, 简称CART 算法, 分类问题中含有 K 个类别, 样本点属于第 k 类的概率为 pk对于给定的样本集 DCART 决策树具体算法为:在所有可能的特征 A 以及所有可能的切分点 a 中, 选择基尼指数最小的特征及对应的切分点作为最优特征与最优切分点, 依照最优切分点和最优特征点, 从现结点生成两个子节点, 将训练数据集特征分配到两个子结点;算法终止条件为结点样本个数小于给定阈值, 或者样

9、本集基尼指数小于阈值, 亦或没有更多特征。3 实验方法1) 算法改进Cart 决策树作为分类与回归树, 应用作为钓鱼网站的识别, 输出非数值标签。然而, 在实际应用中, 将一个钓鱼网站误报为正规网站的危害远远大于将正常网站检测为钓鱼网站6。应此, 我们引入一个代价函数, 牺牲正样本的极少识别率, 用于降低负样本的错误率。基于 Cart 决策树的基本方法, 对样本进行随机分类, 并对样本进行基本学习, 计算当前漏报率 (将钓鱼网站误判为正常网站的比例) 和误报率 (将正常网页误判的钓鱼网站的比例) 的比例设为误差输出值 d (n) , 进行归一化, 训练开始漏报率和误报率没有权值调整, 初始为

10、1:1 的比例, 定义估计误差e (n) 是期望相应, d (n) 为对 d (n) 的估计, 因为理想的预计误差为 0, 所以可看作接近 0 的极小值, 这时引入误差函数 J (w) 作为代价函数。根据维纳-霍夫方程7和正交原理8:总结上述步骤, 改进的 CART 算法步骤如下:1) 初始化, 使得 n=0, 权向量 (0) =0, 估计误差2) 对数据集 D 抽取固定样本数, 进行 CART 决策树生成学习器 1, 2, ., n, 记录每个学习器的误差输出值 d (n) 和特征权值。4) 重复步骤 2, 3。4 数据分析1) 数据收集本实验采用的数据来自 UCI Machine Lear

11、ning Repository 的 Pishing Website 数据子集9, 数据来源于 Google 引擎记录, Pishing Tank 记录。其中正常网页 1491 个, 钓鱼网站 1054 个。训练集和预测集按照 1:2 的比例进行分配。主要白名单来源于 Aleax 中抽取的网页数据。黑名单由于变动具有时效性, 所以实时跟踪主要黑名单来自 2016 年 6 月到 2017 年 6 月 Phishing tank网站提供的钓鱼网页 URL 名单库。5 实验评估及其结果分析根据各个分类器对钓鱼网站检测的准确率 (precision) 和召回率 (recall) 来评估其预测结果的好坏1

12、0。TP 为被分类器正确预测为钓鱼网站的个数;TN 为被分类器正确预测为正常网站的个数;FP 为:被分类器错误预测为钓鱼网站的个数;FN 为被分类器错误预测为正常网站的个数;分类精度: (正确分类所占总数的比例) 误报率: (将正常网页误判的钓鱼网站的比例) 漏报率: (将钓鱼网站误判为正常网站的比例) 6 试验结果分析根据实验结果可以看出, 决策树在算法模型上显著性的对未知的 URL 起到了预测的作用, 具有较好的分类效果, 达到了一定的分类精度。在使用基于最小均方误差的代价函数后, 不仅成功地将漏报率降低, 同时迭代拟合了集成学习的思想, 提升了算法的识别率, 根据图 2 所示, 实验在

13、400 次左右误差开始收敛。实验的不足在于, 根据表 1 可以看出, 改进后的决策树虽然降低了漏报率, 但是是在牺牲了误报率的性能, 在迭代次数增大至 200 次左右后误报率开始回升, 同时增加迭代次数提升了算法复杂度, 需在今后进行进一步改进。图 1 迭代次数与代价函数关系图下载原图表 1 实验算法性能对比下载原表图 2 四种方法准确率对比下载原图参考文献1Sujata Garera, Niels Provos, Monica Chew, et al.A framework for detection and measurement of phishing attacksJ.Proc

14、eedingWORM07 Proceedings of the 2017 ACM workshop on Recurring malcode, 2017. 2Li L, Helenius M.Usability evaluation of anti-pishing toolbarsJ.Comput, Virol., 2014, 3 (2) :163-184. 3Zhang Y, Hong J, Cranor L.CANTINA:A content-based approach to detecting phishing websitesC.In Proc.16th Int.Con.World

15、Wide Web Banff, Canada, 2016. 4Anthony Y Fu, Liu Wenyin, Deng Xiaotie.Detecting Phishing Web Pages with Visual Similarity Assessment Based on Earth Movers Distance (EMD) INJ.IEEE Transactions on Dependable and Secure Computing.2016, 3 (4) :301-311. 5Zhang, Hai-jun, Liu Gang, Chow Tommy WS.Textual an

16、d visual content-based anti-phishing:a bayesian approachJ.IEEEtransac-tions on neural networks/a publicat-ion of the IEEENeural Networks Council, 2011, 22 (10) :1532-1546. 6Artem Vorobiev and Jun Han.Security Attack Ontology for Web ServicesJ.2015 IEEE, 2015. 7Reyes Rios-Cabrera, Tinne Tuytelaars, Luc Van Gool.Efficient multi-camera vehicle detection, tracking, and identification in a tunnel surveillan-c

展开阅读全文