
上传人:jiups****uk12 文档编号:47888249 上传时间:2018-07-05 格式:PDF 页数:63 大小:469.41KB
返回 下载 相关 举报
第1页 / 共63页
第2页 / 共63页
第3页 / 共63页
第4页 / 共63页
第5页 / 共63页


1、上海交通大学硕士学位论文基于内容过滤的反垃圾邮件系统的设计与实现姓名:程卫华申请学位级别:硕士专业:软件工程指导教师:尤晋元;张鸿钧200704012基于内容过滤的反垃圾邮件系统的设计与实现 摘 要 随着信息网络的高速发展,电子邮件作为一种快捷便利的通信 手段,已经深入普及到人们的日常工作与生活中。但与此同时,日益 泛滥的垃圾邮件也对全球造成了严重的威胁和不良影响, 引起社会各 界的广泛关注。我们呼吁有关人士必须逐渐从立法、行政和规范角度 出发采取全面有效的措施,但目前主要依靠的还是反垃圾邮件技术。 为了降低系统的误判,更好地适应变化多端和类型丰富的垃圾邮 件,本文研究了基于内容过滤的反垃圾邮

2、件技术,主要包括贝叶斯概 率统计、分布式校验值交换和启发式分析检测技术,进行一个反垃圾 邮件系统的设计和实现。在反垃圾邮件系统的研究中,通过提供和改 进 MTA 层过滤接口、MDA 层过滤接口和用户反馈机制,可以完善整个 邮件系统的防御体系,并支持个性化的反垃圾邮件控制功能。此外, 还根据实际部署需要分析和验证了两种不同的邮件系统架构, 在优点 和局限方面作出了比较。 最后,本文研究了反垃圾邮件系统的评价方法和评价指标,利用 广泛收集的邮件样本和 K 次交叉验证法对该系统进行评测。 评测实验 结果表明, 该系统在应用改进的反垃圾邮件内容过滤技术方面取得了 良好的效果。 关键字:关键字:反垃圾邮

3、件,内容过滤,贝叶斯算法,分布式校验值交换中 心,启发式分析检测3THE DESIGN AND IMPLEMENTATION OF CONTENT-BASED ANTI-SPAM EMAIL SYSTEM ABSTRACT With the high speed of expansion of the information network, e-mail as a quick and convenient way to communicate, has seen ever widening acceptance from peoples daily life. But in the mean

4、while, the tremendous overspreading of the junk mails has imposed serious threat and negative impact on the globe, which aroused the worlds attention. Although an effective and all around solution to it should involve collaborations from legislation, administration and setting up better specificatio

5、ns, for now, the most practical way remains to be anti-spam technology. This paper aims at lowering the false-positive rate of the anti-spam systems and to better adapt them to the abundant types and variations of the junk mails. To achieve this, the research focuses on the content-based filtering t

6、echnology, including Bayesian Statistics, Distributed Checksum Clearinghouse and heuristic analysis and detection. Through the adoption of these method, an anti-spam system is constructed. During the research, the filtering interface of MTA layer and MDA layer are improved, the user feedback mechani

7、sm is facilitated, personalized control is supported, all these contribute to leveraging the defense capability of our system as a whole. Moreover, from the perspective of real deployments, the anti-spam system is verified against two different mail systems, and their pros and cons are compared. Las

8、tly, this paper investigates into the sets of evaluative indicators for assessing an anti-spam system, by using k-fold cross validation to test against widely collected mail samples. From the result, we conclude that this system is effective in improving the anti-spam Content-based filtering technol

9、ogy. KEY WORDS:AKEY WORDS:Anti-spam, Content Filtering, Bayes Algorithm, Distributed Checksum Clearinghouse, Heuristic Analysis and Detection 表目录 表目录 表 4-1 自动学习状态集.39 表 4-2 用户配置信息 .47 表 4-3 配置实例 .47 表 4-4 贝叶斯数据库属性 .48 表 4-5 已学习邮件属性 .48 表 4-6 token 数据.49 表 5-1 反垃圾邮件系统判定情况 .54 表 5-2 简单内容过滤技术评测 .55 表 5

10、-3 改进的反垃圾邮件系统评测 .56 图目录 图目录 图 1-1 中国网民每周收到垃圾邮件所占的比例 .10 Figure 1-1 The scale of spam emails received by web users per week in China.10 图 2-1 一般贝叶斯模型 .18 Figure 2-1 General Bayes Model.18 图 2-2 朴素贝叶斯模型 .19 Figue 2-2 Nave Bayes Model.19 图 3-1 总体框架 .27 Figure 3-1 General Framework.27 图 3-2 反垃圾邮件中心模块 .2

11、8 Figure 3-2 The Module of Anti-Spam Center.28 图 3-3 MTA 层过滤接口.29 Figure 3-3 The Interface of MTA Filter.29 图 3-4 MDA 层过滤接口.30 Figure 3-4 The InterFace of MDA Filter.30 图 3-5 网关服务架构 .31 Figure 3-5 The Architecture Of Gateway.31 图 3-6 服务器-反垃圾邮件中心服务架构 .33 1 附件四附件四 上海交通大学上海交通大学 学位论文原创性声明学位论文原创性声明 本人郑重声

12、明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:程卫华 日期: 2007 年 5 月 31 日 2 附件五附件五 上海交通大学上海交通大学 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密保密,在 年解密后适用本授权书。 本学位论文属于 不保密不保密。 (请在以上方框内打“”) 学位论文作者签名:程卫华 指导教师签名:尤晋元 日期: 2007 年 5 月 31 日 日期: 2007 年 5 月 31 日 1第 1 章:绪论 随着互联网技术的飞速发展,电子邮件已经成为一种普及、快捷、经济的通信手段,融入进社会经济发展、社会组织管理和人们的日常工作与生活之中。但与此同时,垃圾邮件作为一种商业广告、恶意程序


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号