垃圾邮件分类算法的研究报告与分析

资源描述

《垃圾邮件分类算法的研究报告与分析》由会员分享，可在线阅读，更多相关《垃圾邮件分类算法的研究报告与分析（6页珍藏版）》请在金锄头文库上搜索。

1、-垃圾分类算法的研究与分析西北工业大学计算机学院 710129 (School of puter, Northwestern Polytechnic University *ian 710129 China)摘要：随着互联网的高速开展,电子已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃圾也成为互联网上的一个日益严重的平安问题,引起了越来越多的社会群众和研究人员的重视和关注。为了有效的分辨垃圾，本文通过对训练数据进展相应的预处理及特征提取，分别使用朴素贝叶斯、C4.5决策树、支持向量机三种方法来对垃圾进展分类，通过测试结果，比对各个分类算法的优劣，并进展了详细的分析。关键词：垃圾朴素

2、贝叶斯 C4.5决策树支持向量机Abstract：With the rapid development of the Internet, plays an important roles in peoples information access and information e*change. At the same time, spam has bee an increasingly serious security problem on the Internet, causing more and more attention of the munity and researchers

3、. In order to effectively distinguish the spam, this paper Pre-processings and e*tracts feature of the training data, and uses the NaiveBayes, C4.5 Decision Tree and SVM to classify the spam, Through the test results, pare and analysis the advantages and disadvantages of each classification algorith

4、m.Keywords:spam NaiveBayes C4.5 Decision Tree SVM1 引言Internet 的问世带来了电子业务的出现，网络技术的飞速开展促进了效劳的广泛普及及繁荣，电子已经成为生活在信息时代的人们日常生活一个重要局部。电子不仅是一个信息交流的重要渠道，而且也是人们信息获取的重要途径之一。随着互联网的普及，不仅人们的日常事务可以通过电子来进展处理，而且越来越多正式和重要的信息也通过电子来进展传达和交流。随着电子越来越普及和重要性的持续增长，一些商家和不法分子开场利用垃圾这种方式来进展广告信息的传播和用户消费行为信息的获取。根据无线效劳机构 Wireless Se

5、rvices Corporation 公司提供的一份最新调查显示，目前美国移动通信市场上所有的电子效劳当中，43%的都是垃圾信息，而年前垃圾在电子中的比例为 18%。而在国内，据有关部门统计，国内的电子用户，平均每天发送的短信数量超过了3亿条。甚至被称为继报纸、播送、电视、网络之后的第五媒体。不过在数量庞大的电子背后，垃圾的问题也愈加严重。垃圾可以说是因特网带给人类最具争议性的副产品之一，它的泛滥已经使整个因特网不堪重负，人们不得不花费大量时间来对付里的垃圾。在这样的情势下，制定切实可行的反垃圾方案无疑是Internet的一个重要课题，而对于反垃圾技术的研究也称为一个新的热点领域。本文根据现有

6、分类的知识，结合训练数据集的特点，选择适宜的分类算法，来实现对垃圾的分类。2 相关工作本文垃圾的分类工作主要包括以下三个局部：文本数据预处理，数据集特征选择，分类算法的应用及结果分析。2.1文本数据预处理根据提供的训练数据集及测试数据集，编写程序，提取数据集中所有单词及对应的频率，并更改数据格式，以矩阵的形式存储。初步处理过后的训练数据集Pre-train1.csv第一行表示数据集中出现的所有单词、字母和数字属性共1000个，第2-9001行代表之前的9000条训练数据集，对应第一行的单词，存储了每个单词出现的频率。Pre-train1.csv最后一列添加了label标签，说明每一条数据的属性

7、，ham或spam。在Pre-train1.csv的根底上，我们开场对数据集中的属性进展筛选，去掉统计出来的单个字母，纯数字，以及无意义词汇属性143条，得到最终的数据集Pre-train2.csv共包含857个可靠单词属性，如图1所示，基于Pre-train2.csv数据集，我们进展后续的特征提取。图1 数据集格式2.2 特征提取熵与信息增益熵是信息理论中一个非常重要的概念，表示任何一种能量在空间中分布的均匀程度，能量分布越均匀，越不确定，熵就越大。Shannon将熵应有于信息处理，提出了信息熵的概念。信息熵是信息的量化度量，是衡量一个随机变量取值的不确定性程度令 * 为随机变量，如果 *

8、随机变量的变化越多，通过它获取的信息量就越大，*的信息熵定义为：2-1通过观察随机变量 Y 获得的关于随机变量 * 的信息熵定义为：2-2信息增益是信息熵的差，表示在消除不确定性后获得的信息量，定义为：2-3信息增益是信息论中的一个重要概念，被广泛应用在机器学习领域。对分类系统来说，计算信息增益是针对一个一个的特征项而言的，它通过统计*一个特征项t在类别C中出现与否的文档数来计算特征项t对类别C的信息增益1，定义为考虑出现前后的信息熵之差，*个特征项的信息增益值越大，表示其奉献越大，对分类也越重要。因此，在进展特征选择时，通常选取信息增益值大的假设干个单词构造文本的特征向量。本文中，训练数据集

9、中有857个属性，全部参与训练效率过低，因此需要提取出有代表性的词汇，应选用信息增益的方式来从数据集中提取特征。将处理过后的训练数据集导入到WEKA软件中，并在预处理阶段使用AttributeSelection界面中InfoGainAttributeEval来进展信息增益特征提取，同时，将提取出来的特征属性按信息增益由高到低进展排列，结果如图2所示：图2 信息增益特征提取结果根据特征提取结果，选择信息增益排列前400的单词作为最终的训练集，并生成Pre-train(3).arff数据集文件。3 算法实验与分析实验局部采用自主程序设计和WEKA数据挖掘工具相结合的方法，利用经过预处理的训练集，编

10、写MATLAB程序进展垃圾分类，同时，利用WEKA软件中提供的多种常用的分类算法，进展实验。最后对各种分类方法的优劣进展总结。3.1朴素贝叶斯算法朴素贝叶斯分类器2是一种有监视的学习方法，其假设属性的值对给定类的影响而独立于其他属性值。用贝叶斯网表达朴素贝叶斯的分类器如图3所示。图 3 朴素贝叶斯网朴素贝叶斯后验概率3的计算公式如式3-1 (3-1)其中*表示单词序列，C表示分类。其中的计算公式如式3-2 (3-2)则分类结果C的选择方式为式3-3 (3-3)实验局部使用两种方法来实现贝叶斯分类算法，分别是MATLAB编写程序和WEKA平台提供的NaiveBayes算法。MATLAB程序中，根

11、据朴素贝叶斯公式，使用经过预处理的4000条数据作为训练集，实验结果如表1所示：表1 基于MATLAB的朴素贝叶斯实验结果训练数量/条训练属性条错误率40001500.0970在WEKA件中，使用9000条数据，400条属性作为训练集，在Classify条目下选择NaiveBayes分类算法，并选择Supplied test set作为训练模型评价方法，实验结果如表2所示：表2 基于weka平台的朴素贝叶斯分类算法实验结果hamspamtotalham16951420spam61519580total23057010003.2 C4.5决策算法C4.5 算法是目前最具影响的决策树算法, 已广泛

12、应用于数据分类领域，C4.5算法是在ID3算法的根底上改良过来的，不仅可以处理离散型描述属性，还可以处理连续性属性。C4.5算法采用信息增益率作为选择分枝属性的标准，弥补了ID3算法在使用信息增益选择分枝属性时偏向于取值较多的属性的缺陷。作为ID3 算法的改良算法，C4.5 算法克制了ID3算法的两大缺点：(1) ID3 算法使用信息增益作为评价标准来选择根节点和各内部节点中的分枝属性，信息增益的缺点是倾向于选择取值较多的属性，在*些情况下这类属性可能不会提供太多有价值的信息，而C4.5 算法采用信息增益率作为评价标准，克制了ID3算法的这点缺乏；(2) (2) ID3 算法只能处理描述属性为

13、离散的数据集，而C4.5 算法既可以处理离散型描述性，又可以处理连续型描述属性。C4.5 算法也是一种基于信息论的机器学习方法，其核心思想是通过分析训练数据集，在整个数据集上递归地建立一个决策树。使用WEKA数据挖掘软件提供的C4.5 算法进展分类，实验结果如表3所示表3 C4.5决策树算法实验结果hamspamtotalham4119420spam11569580total42257810003.3支持向量机算法支持向量机算法简称 SVMSupport Vector Machine算法4，该算法建立在统计学习理论中的 VC 维和构造风险最小化根底之上，并结合最优化理论来得到分类决策函数的分类

14、算法。其根本思想是寻找一个分类超平面，将两类样本分到超平面的两侧他在解决非线性问题、高维模式识别问题等许多问题中显示出许多优势，是统计学习理论中比拟实用的算法之一，目前已在人脸识别、手写数字识别、文本分类5、信息检索等领域得到成功应用。支持向量机的数学模型如式3-4和式3-5，该模型保证在满足条件下，超平面距离各样本点距离最大。3-43-5利用WEKA软件实现支持矢量机SMO算法的实验结果如表4所示表 4支持向量机算法实验结果hamspamtotalham40317420spam13567580total41658410003.4实验结果评价与分析实验评价方法测试集合中垃圾、非垃圾的数量分别是

15、Ns、Nh，垃圾中正确分类和被错分的数量分别为Nss、Nsh，非垃圾中被正确分类和被错误分类的数量分别为Nhh、Nhs，则垃圾识别算法的性能可以根据以下几个指标进展衡量。1垃圾召回率(recall)垃圾样本集中能被算法正确分类的样本所占比例，记为r，定义如式3-6)3-6可见当垃圾召回率反响了算法对垃圾的检测能力，该值越大说明检测能力越强，被遗漏的越少。2垃圾识别准确率(precision)被正确识别分类的数占所有样本的比例，记为p，定义如式3-7)3-7准确率反响被正确分类的概率，准确率越高，说明被错误分类的数量就越少。实验结果分析MATLAB编写程序实现的朴素贝叶斯算法结果与WEKA平台的实验结果存在一定的差异，比照结果如表5所示表5 基于MATLAB的朴素贝叶斯实验结果算法实现环境准确率MATLAB0.903WEKA平台0.888实验结果存在差异的原因在于MATLAB程序仅仅是单纯使用朴素贝叶斯公式来进展结果计算，未考虑数据集中的噪音等因

展开阅读全文

垃圾邮件分类算法的研究报告与分析

最新文档