附外文翻译译文－金锄头文库

资源描述

《附外文翻译译文》由会员分享，可在线阅读，更多相关《附外文翻译译文（8页珍藏版）》请在金锄头文库上搜索。

1、SMTP 路径分析摘要大部分域名认证的支持者建议合并域名认证和信誉服务.这篇论文为你介绍一种学习邮件域名和IP 地址声誉的新算法，它以分析传输已知的垃圾邮件和好邮件的路径为基础它将产生一个有效的算法来提供合并域名认证需要的信誉信息,以此来进行过滤的决定这个算法实现了许多由域名认证系统提供的有益的服务，如黑名单服务，白名单服务，不需要任何基础设施成本和首次展示的需要简介验证发送邮件域名的机制已经变得越来越普遍，规范而且受到激烈的争论最短路径优先算法的目标，访客ID,发送者 ID 基本上是相同的它们都被设计为通过使域名所有者发布一个包含外发邮件服务器的名单来阻止” 欺骗”

2、通过这些测试的消息可以可靠的与一个参与发送消息的域名关联然而这个信息不能充分的过滤垃圾邮件此外，想知道一个负责任的域名，垃圾邮件过滤需要了解哪些域名发送垃圾邮件因此大多数域名认证的支持者建议合并域名认证和信誉服务这篇论文为你介绍一种学习邮件域名和IP 地址声誉的新算法，它以分析传输已知的垃圾邮件和好邮件的路径为基础此信息结合一个新算法用于过滤欺骗性邮件标题，以确保垃圾邮件发送者不能规避分析。其结果是一个有效的算法, 它提供域名认证所需要的信誉信息用来做过滤决定. 有趣的是，该算法的分析表明，部分或大部分域名认证系统,黑名单 ,白名单所得到的优势 ,可以通过本地学习而不需要

3、大量的采取域名认证或者第三方的黑白名单服务 . 我们描述的算法只使用来自收到的邮件的头部中的标准” 收到” 行中提到的 IP 地址,来分析此消息是否是垃圾邮件.这是一个学习算法 ,在此算法中我们假设它在一种具有代表性的根据选定的IP地址分类的邮件上锻炼 .隐含在此算法后的直觉是来自相同或相似 IP地址的邮件很可能享有共同的分类.实验证据证明 ,此直觉是正确的 . 该算法在识别垃圾邮件或者非垃圾邮件上是非常精确的,但是它不能准确的标记含有资源很少的网站.对于其他的 ,使用其他技术比如朴素贝叶斯或者重桂的筛选器可以更精确的区分.例如,虽然 SMTP路径分析不如普通使用了贝叶斯的垃圾

4、邮件筛选器精确 ,它认为贝叶斯筛选器处理的信息通常最优,在那个领域的那些方面它做的更好 .其结果可以纠正贝叶斯筛选器做出的错误评估,而贝叶斯筛选器可以在数据信息不足的时候做有效的路径分析.一个聚合的分析器使用两种结果比只用其中任何一个结果更有效. 比较这种方法和域名验证计划如SPF是非常有趣的 .SPF让一个域名声明它的传出邮件网关 .如果 SPF信息是正确的所有通过那个域的邮件必须通过这些网关. 如果一个消息通过 SPF检查,而且主要的域不发送垃圾邮件,那么直接通过这个邮件通路传给用户是安全的.由于垃圾邮件发送者同时也注册了域名发布了SPF记录,我们不能假设通过SPF验证的邮件来

5、自于无垃圾邮件的域名.这就需要一些方法来决定这些域名的信誉. 这里所描述的算法直接使用IP地址,建立了它们的信誉 ,有时候基于附近的IP 地址,而不是由一个外部的声明集对它们进行分组然后根据分组学习它们的信誉. 在这一点 SPF拥有的主要的优势是 : 1 SPF 可以将不同的地址分到一个组,所以为这个组产生一个信誉信息会需要较少的信息 . 2 SPF, 明确的说明这些范围的边界. SPF或许可以声明另一种优势,在这种优势里它可以 (如果声称的发送域发布了 SPF) 区分通过合法的网关发送的邮件和从僵尸进程直接发往互联网的邮件.然而我们的算法事实上擅于识别合法的网关以及筛选直接从僵尸进程

6、主机(或者” 僵尸网络 ” ; 查阅 Honeynet, 2005 ) 发送的邮件 ,所以这个优势并不会像它被认为的那样优秀 .SPF 信息无疑可以在适当的时候和我们的算法结合,如果不结合那么我们的算法将依靠自己 .注意,虽然 SPF在声明的域名没有发布SPF信息的时候不能识别任何东西 ,但是我们的算法可以从发送路径来学习而不管什么域名被声明为信息源 . 这篇论文剩下的部分包括此算法更详细的描述-对我们所做实验的解释 ,对实验的讨论以及我们的结论. 2 收到的头部 SMTP 协议指定 ,每个用于发送邮件信息的SMTP中继必须在消息头部列表中添加” received ” 行,包括(至

7、少)收到消息的服务器的信息和从哪里收到的消息,以及一个说明添加头部时间的时间戳.这些头部共同提供了用于传递消息的SMTP 路径的记录 . 然而,收到消息中的 SMTP路径信息不能完全相信 .消息头部没有署名或者以任何方式验证 ,所以很容易被伪造 .沿路径的任何 SMTP服务器可以插入虚假头部 , 使此消息好像来自发送者选择的任何一个路径. 尽管如此 ,某些收到的消息的头部是可信任的.例如,所有你自己的域的入站 SMTP服务器添加的头部是可信任的.一个网站可能也信收到的由经常合作的组织产生的行 ,假设它们可以识别这些组织的出站服务器.但是,一旦隐含的收到的行中的 SMTP路径指向一个未知

8、的或者不可信任的服务器的时候,那么声称的剩下的 SMTP路径信息不可信任 . 就像下面所讨论的 ,开发一个根据收到的行进行分析的有效的垃圾邮件筛选器的一个关键挑战就是决定哪些记录在收到的行中的SMTP路径信息是可信任的. 3 算法 SMTP 路径分析通过根据以往发自此IP的邮件的记录来学习IP地址的优良来进行工作 . 该算法的学习阶段需要一套预归类是为垃圾邮件或非垃圾邮件标记的邮件作为输入. 学习算法提取每个消息中的IP 地址序列 ,这些 IP 用来到达消息接收者 ,并且记录 IP 地址的数据 .在它的分类阶段 ,此算法提取目标信息的IP 序列,然后根据可能用于传送此消息的网关的

9、IP 地址为这个消息产生一个评分. 该分数可以经过一个阈值，产生或不产生一个垃圾邮件的分类，或者可以作为聚合筛选器的输入 . 此算法不考虑其它信息;特别的 ,它不另外的分析消息的内容或者考虑任何域名信息 . 在我们的算法的大多数基本形式中,为每个 IP 地址收集的数据只是简单的垃圾或者非垃圾邮件出现的次数.这些计数然后就被用于估计一个经过任何以前的 IP 地址的邮件是否是垃圾邮件.概率估计是顺利的而且对纠正小样本是有必要的. 在分类中 ,我们观察被用来传递消息的IP 地址序列 ,根据我们有充分数据的链中最后一个 IP 地址分配给这个消息一个分数. 在以上的算廓看似合理之前有两个问题

10、必须解决:1. 很多机器 (尤其是那些在链开始的位置,它们可能是僵尸电脑或者垃圾邮件制作者链接到它们的服务提供者)不具有固定的 IP地址,看到相同的训练集中的 IP地址就像我们嫩试图分类的消息的概率比我们想象的小. 2. 上述技术容易被欺骗 .那就是这个消息可能来自一个平凡的IP地址,这个机器可能声称它正在传递一个来自合法发送者的消息. 当没有充分的数据来给当前IP地址做一个可信任的决定的时候我们通过结合当前 IP和那些附近 IP的数据解决动态IP问题.有多种可用于此目的的 ” 附近” 的定义 .我们的解决办法是建立一个我们目前所看到的IP地址的树 .树跟节点有 256 个子树 .每个子

11、树对应一个IP地址第一个字节可能的变化 .反过来 ,每个子树拥有 256个子树 ,每个子树对应于一个IP地址第二字节可能的变化 .对于第三第四自己都是一样的 ,当然随着我们走到树的下部,分支变得稀疏 ,产生一个带有少于 232个节点的树 . 在每个节点 n 我们存储垃圾邮件的数目 ,Sn以及非垃圾邮件的数目NSn此节点所代表的IP地址或者范围已经出现了 .一个概率将被计算出来 ,用来衡量此节点有多么普通 ,概率是 Sn/(Sn+NSn) : 垃圾邮件数目除以通过此地址或者此范围的邮件总数 . 我们不能简单的按照这个概率的样子来使用它,再一次 ,这里有两个问题 : 1. 我们试图为内部

12、节点记录的是可以在我们得到一个IP地址但是在此节点下没有完全匹配的情况下帮助我们的信息.那个值应该受到平均IP 子集的变化的影响,而不是受到这些范围内某些特定的IP的变化的影响 .这可能非常重要在这个情况下 ,这些 IP被垃圾邮件制造者使用 ,但是此范围总的来说不是这样,所以我们平均子节点的活跃性 ,而不是根据通过他们的邮件总数来衡量. 2.如果一个节点只看到一片垃圾邮件和没有非垃圾邮件, 那么下一条消息是垃圾邮件的可能性不是100%. 我们解决两个问题的办法是我们计算出该IP地址的评分 .我们加一个 0.5 分的人为的新根. 我们多次到达包含实际IP的子树如果有一个可用的话.在该

13、子树我们计算了他的子树和父节点的平均值.也就是说，如果有9 个子节点，我们采取 10 个节点的平均：父节点和9 个子节点。对于叶节点我们采用父节点和由包含此叶节点的消息总数的叶节点的比率的平均值. 当然,有时候我们没有到达一个叶节点 ,如果我们从来没有在我们的训练集中见过这种确切的IP 地址. 当我们收到一个新消息 ,我们查看每个 IP 地址,从最后一个 IP 开始-最靠近我们收消息的机器的地址 .我们计算它的分数 ,一个介于 0 和 1 的数字，然后与下一个地址的分数结合起来 . 我们采取了两个 IP 地址 spamminess 加权平均，使用的权等于 1/（秒*（1 - s）

14、的其中 s 是上述 spamminess . 其理由是，一个 IP 地址很可能是垃圾邮件或非垃圾邮件是一个邮件的本质的较好的指标- 即分数最极端的的地址是计算的最重要部分. 我们持续使用这种将目前的平均成绩和下一个IP垃圾性相关联的计算方法一直到最后结束. 如上所述，上述技术容易受到欺骗. 如果垃圾邮件发送者通过伪装来欺骗我们的算法，这些来自垃圾地址的邮件会显示为来自合法的地址. 为了解决这个问题, 我们为每一个中间地址建立一个信誉值, 如果地址是不可信的，我们至少可以部分地忽略剩余的地址. 经过算法的实验我们发现了两个有用的改进. 我们发现，在实践中，如果在我们的训练设置的IP

15、地址有任何序列完全匹配，当我们只找到一个内部节点的时候, 它是一种比上面给出的分数更好的指标. 因此，我们给予精确匹配更多的权重. 我们发现，在产生消息的地址和作为网关的地址之间有一个区别, 我们将源地址和中间地址分开统计. 在我们方面，当 IBM 公司开发了互联网的存在 , 大多数以前有过互联网电子邮件地址的研究所的用户,从研究所的内部网关转移到全体范围的网关是很缓慢的.由于垃圾邮件的增加，研究网关现在似乎很少被用于合法邮件 -通过这些网关其中之一的邮件98%是垃圾邮件 ,但是一些研究人员仍然在使用它 .因此，从那里传向 IBM 的其他部门的邮件将被标记为“ 可能为垃圾邮

16、件“., 根据接对收到的行的分析 . 我们通过将最后一个IP(被推测为源站点 )的数据和其它地址的数据分开来修复这个问题.因此，如果一个地址范围收到的垃圾邮件很多，但以它附近的地址为源的所有邮件都是好的，那么我们给它一个好成绩. 4 实验方法我们的实验是针对一个数据库，这个数据库是从一个包括两百名成员的国际组织中收集来的，其中含有约170000 封邮件 .这些邮件最初被标记为请求用户对进入他们垃圾邮件文件夹的垃圾邮件和正常邮件进行投票. 200 名用户全部是 IBM 的员工，他们知道这些信息将被用于研究目的. 我们的数据库得到了进一步的“ 净化“ 采用了类似的技术 ,包括相似信息的分类和处理异常值 . 我们一直注意不要在清理我们的数据库的过程中使用我们正在研究的算法和类似的技术. 然而，在我们的评价中小数量的明显错误已得到纠正. 这种情况的数量很少，不会大幅影响整体效果. 5 实验结果图 1 使用标准的 ROC 曲线比较了 SMTP 路径分析的和传统的朴素贝叶斯分类器的性能 .图中所示的算法

展开阅读全文