拒绝蜘蛛协议－金锄头文库

资源描述

《拒绝蜘蛛协议》由会员分享，可在线阅读，更多相关《拒绝蜘蛛协议（2页珍藏版）》请在金锄头文库上搜索。

1、拒绝蜘蛛协议（Robots Exclusion Protocol）使用 Robots Exclusion Protocol 协议当 Robot 访问一个 Web 站点时，比如 http:/ http:/ User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /joe/以确定它是否应该检索站点的文件。这些记录是专门给 Web Robot 看的，一般的浏览者大概永远不会看到这个文件。在一个站点上只能有一个“/robots.txt”文件，而且文件名的每个字母要求全部是小写。在 Robot 的记录格式中每一个单独的“Disallow

2、” 行表示你不希望 Robot 访问的 URL，每个 URL 必须单独占一行，不能出现“Disallow: /cgi-bin/ /tmp/”这样的病句。同时在一个记录中不能出现空行，这是因为空行是多个记录分割的标志。 User-agent行指出的是Robot或其他代理的名称。在User-agent行， * 表示所有的Robot。下面是几个 robot.txt 的例子：在整个服务器上拒绝所有的 robots：User-agent: *Disallow: / 允许所有的robots访问整个站点： User-agent: *Disallow: ；或者产生一个空的“/robots.txt”

3、文件服务器的部分内容允许所有的 robot 访问 User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/ 拒绝某一个专门的 robot：User-agent: BadBotDisallow: / 只允许某一个 Robot 光顾：User-agent: WebCrawlerDisallow:User-agent: *Disallow: / 最后我们给出 http:/www.w3.org/站点上的 robots.txt：# For use by search.w3.org User-agent: W3Crobot/1

4、 Disallow: User-agent: * Disallow: /Member/ # This is restricted to W3C Members only Disallow: /member/ # This is restricted to W3C Members only Disallow: /team/ # This is restricted to W3C Team only Disallow: /TandS/Member # This is restricted to W3C Members only Disallow: /TandS/Team # This is res

5、tricted to W3C Team only Disallow: /Project Disallow: /Systems Disallow: /Web Disallow: /Team Robots METAtag 的格式为： METANAME=“ROBOTS“ CONTENT=“NOINDEX, NOFOLLOW“ 像其他的 METAtag 一样，它应该放在 HTML 文件的 HEAD 区： html head meta name=“robots“ content=“noindex,nofollow“ meta name=“description“ content=“This page .

6、“ title./title/head body .Robots METAtag 指令用逗号隔开，可以使用的指令包括NOINDEX 和NO FOLLOW。 INDEX 指令指出一个索引性 Robot 是否可以对本页进行索引，FOLLOW 指令指出 Robot 是否可以跟踪本页的链接。缺省的情况是 INDEX 和 FOLLOW。例如：meta name=“robots“ content=“index,follow“ meta name=“robots“ content=“noindex,follow“ meta name=“robots“ content=“index,nofollow“ meta name=“robots“ content=“noindex,nofollow“ 在制作和维护 Web 时，应当考虑对 Web Robot 程序的管理。- 建立一个 robots.txt 文档, 如果你的网站是 ,拒绝访问 IMG 目录则为: 在 robots.txt 写上以下代码 # For use by Disallow: User-agent: * Disallow: /img/

展开阅读全文