基于SVM的中文垃圾邮件的识别研究

上传人:jiups****uk12 文档编号:38434326 上传时间:2018-05-01 格式:DOC 页数:3 大小:28.50KB
返回 下载 相关 举报
基于SVM的中文垃圾邮件的识别研究_第1页
第1页 / 共3页
基于SVM的中文垃圾邮件的识别研究_第2页
第2页 / 共3页
基于SVM的中文垃圾邮件的识别研究_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于SVM的中文垃圾邮件的识别研究》由会员分享,可在线阅读,更多相关《基于SVM的中文垃圾邮件的识别研究(3页珍藏版)》请在金锄头文库上搜索。

1、基于基于 SVM 的中文垃圾邮件的识别研究的中文垃圾邮件的识别研究【摘要】:随着 Internet 的迅猛发展,电子邮件作为一种主要的交流方式已得到了广泛应用。但是,许多商业广告、宣传广告、恶作剧等垃圾邮件也在网络中传送,这些垃圾邮件占据了邮件服务器的大量存储空间,同时也需要用户花费大量时间处理,不仅降低了企业的应用效率,也损害了广大用户的合法权益。因此,如何对中文邮件进行处理,识别出垃圾邮件是用户关心的一大问题。目前某些研究中已采用一些技术进行垃圾邮件的特征提取与识别,但这些技术都存在一定的不足,且在中文垃圾邮件的识别上仍存在问题。因此,研究一种有效的方法用于中文垃圾邮件的识别具有十分重要的

2、意义。数据挖掘中的支持向量机分类方法是一种基于统计学习理论的机器学习方法,该方法在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。另外,支持向量机在文本分类领域方面的研究已取得令人满意的效果。针对目前中文垃圾邮件识别技术的不足,本文在支持向量机分类算法的启发下,深入研究了中文垃圾邮件的序列极小化特征提取算法,提出了应用该算法进行中文垃圾邮件识别的过程,该过程分为三个阶段:(1)利用改进的正向最大匹配法对中文邮件文本进行分词;(2)运用向量空间模型把分词后的文本转化为向量形式;(3)采用序列极小化特征提取算法对中文垃圾邮件进行识别。另外,本文还对当前比较通用的各种支持向量机训练算法

3、进行了分析研究,比较了各种算法的优劣,尤其深入研究了序列最小最优化算法,并运用特征提取的序列极小化算法对中文邮件文本进行特征提取。本文通过对中文垃圾邮件自身特点分析,针对其特征维数高的特点,运用支持向量机中的特征提取序列极小化算法对中文垃圾邮件进行特征识别,挖掘出能够识别中文垃圾邮件的特征。同时,对有限的模拟测试样本集进行了测试,取得了比较满意的结果,表明此方法适用于中文垃圾邮件的识别。 【关键词】:中文垃圾邮件特征提取支持向量机序列极小化【学位授予单位】:山西财经大学【学位级别】:硕士【学位授予年份】:2006【分类号】:TP393.098【目录】:摘要 6-7Abstract7-121 引

4、言 12-161.1 研究背景及选题意义 12-131.1.1 研究背景 121.1.2 选题意义 12-131.2 研究现状 13-151.2.1 反垃圾邮件技术 13-141.2.2 支持向量机的研究 14-151.3 主要内容及框架结构 15-161.3.1 主要内容 151.3.2 框架结构 15-162 中文邮件相关知识 16-212.1 电子邮件的特点 16-172.2 中文垃圾邮件的概念 17-182.3 中文垃圾邮件识别过程及相关技术 18-212.3.1 中文垃圾邮件识别过程 182.3.2 相关技术 18-213 中文邮件文本分词预处理 21-263.1 中文文本自动分词

5、213.2 自动分词词典机制 21-223.3 基于词典的分词方法改进的正向最大匹配法 22-263.3.1 改进的正向最大匹配法算法思路 22-233.3.2 算法实现过程 233.3.3 实验与分析 23-264中文邮件向量空间模型 26-314.1 向量空间模型 264.2 特征项 26-314.2.1 特征项的权值 26-274.2.2 向量空间的降维 27-304.2.3 实验与分析 30-315 支持向量机分类算法 31-455.1 统计学习理论 31-325.1.1直观相似程度与内积 31-325.1.2 经验风险最小化归纳原则 325.2 支持向量机算法原理 32-365.2.

6、1 线性可分支持向量机 33-355.2.2 线性不可分支持向量机 35-365.2.3 线性支持向量分类机算法 365.3 支持向量机训练算法 36-455.3.1 选块算法 37-385.3.2 分解算法 38-405.3.3 序列最小最优化算法 40-456 中文垃圾邮件的识别 45-506.1 中文垃圾邮件特征提取模型的设计 45-476.1.1 训练集的选取 466.1.2 算法选择466.1.3 核函数的选取 46-476.2 中文垃圾邮件特征提取与识别 47-506.2.1 数据资源 476.2.2 结果分析 47-507 结论与展望 50-517.1 结论507.2 展望 50-51 参考文献 51-53 附录一中文邮件文本分词部分程序代码 53-56 附录二中文邮件文本向量表示部分程序代码 56-57 附录三中文垃圾邮件特征提取部分程序代码 57-58 致谢 58-59 攻读硕士学位期间发表的论文 59-60 本论文购买请联系页眉网站。本论文购买请联系页眉网站。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号