中文垃圾邮件过滤系统的实现和评估课件

上传人:我*** 文档编号:142567453 上传时间:2020-08-20 格式:PPT 页数:19 大小:127KB
返回 下载 相关 举报
中文垃圾邮件过滤系统的实现和评估课件_第1页
第1页 / 共19页
中文垃圾邮件过滤系统的实现和评估课件_第2页
第2页 / 共19页
中文垃圾邮件过滤系统的实现和评估课件_第3页
第3页 / 共19页
中文垃圾邮件过滤系统的实现和评估课件_第4页
第4页 / 共19页
中文垃圾邮件过滤系统的实现和评估课件_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《中文垃圾邮件过滤系统的实现和评估课件》由会员分享,可在线阅读,更多相关《中文垃圾邮件过滤系统的实现和评估课件(19页珍藏版)》请在金锄头文库上搜索。

1、中文垃圾邮件过滤系统的实现和评估,田莹 北京 清华大学 网络中心 Email:,概要,引言 研究背景 中文垃圾邮件过滤系统的实现 中文垃圾邮件过滤系统的评估 最新研究进展及结论,引言,垃圾邮件的定义 垃圾邮件的危害 反垃圾邮件的意义 Email,短信,VoIP电话 垃圾邮件的特性,反垃圾邮件的方法,黑白名单 关键字匹配 贝叶斯 SVM Etc.,基于内容的过滤器的流程图,英文垃圾邮件的贝叶斯过滤流程,收集两个数据库 垃圾邮件数据库 正常邮件数据库 在每一个数据库中,学习并定义出一些关键词,计算这些关键词的概率 新邮件到来时,计算出新到来的邮件中包含的关键词的联合概率 通过联合概率判断新到来的邮

2、件是否是垃圾邮件,中文邮件的预处理,中文分词的概念 分词算法 基于字符串匹配 基于理解 基于统计 中文分词的词典 基于整词二分 基于TRIE索引树 基于逐字二分,实验数据来源,CCERT提供 训练用邮件数 5000 测试用邮件数 500,评估指标,定义L为正常邮件,S为垃圾邮件。SL表示将垃圾邮件判定为正常邮件,同理,LS表示将正常邮件判定为垃圾邮件。 在文本分类问题中,有两个评估指标被经常使用。 Acc称为正确率。Err称为错误率。这里 表示将正常邮件判断为正常邮件的个数。 的含义可以类推。 和 分别表示待判定的正常邮件和垃圾邮件的总个数。,评估指标(续1),考虑到LS和 SL分别会有不同的

3、代价,并设LS的代价是SL的代价的倍,我们定义两个新的评估指标,分别是WAcc(加权的正确率)和WErr(加权的错误率) 在没有过滤的情况下(无论是正常邮件还是垃圾邮件一律通过),我们得到基准WAcc和基准WErr分别为:,评估指标(续2),为了方便比较,定义比率R为 不难看出R越大,过滤的效果越好。R如果小于1,意味着过滤比不过滤效果还差,参数说明,我们的算法中有两个重要的参数 用于训练的样本个数n 在过滤中计算最终概率的特征数目m 实验中,主要研究R和n以及R和m之间的相互关系。,实验结果,图1 R-m关系图,图2 R-m关系图,图3 R-m关系图,图4 R-n关系图,实验结果说明,在过滤中计算最终概率的特征数目m以及用于训练的样本个数n都存在某个最优值 当用于训练的样本个数逐渐超过这个最优值时,过滤效果会略微下降并趋于一致。,最新研究进展,相关会议 MIT spam conference CEAS(电子邮件和反垃圾邮件会议),贝叶斯过滤发展方向,从单一关键词到关键词链 从线性到非线性 从单一用户到综合多用户 从客户端到服务器 利用电子邮件网络 Etc.,系统和产品,微软公司:SmartProof IBM公司:SpamGuru Etc.,结论,反垃圾邮件的挑战,谢谢大家,Q & A,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号