拒绝蜘蛛协议

上传人:nbwa****ajie 文档编号:36845769 上传时间:2018-04-03 格式:PDF 页数:2 大小:19.42KB
返回 下载 相关 举报
拒绝蜘蛛协议_第1页
第1页 / 共2页
拒绝蜘蛛协议_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《拒绝蜘蛛协议》由会员分享,可在线阅读,更多相关《拒绝蜘蛛协议(2页珍藏版)》请在金锄头文库上搜索。

1、拒绝蜘蛛协议(Robots Exclusion Protocol)使用 Robots Exclusion Protocol 协议 当 Robot 访问一个 Web 站点时,比如 http:/ http:/ User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /joe/以确定它是否应该检索站点的 文件。这些记录是专门给 Web Robot 看的,一般的浏览者大概永远不会看到这个文件。 在一个站点上只能有一个“/robots.txt”文件, 而且文件名的每个字母要求全部是小写。 在 Robot 的记录格式中每一个单独的“Disallow

2、” 行表示你不希望 Robot 访问的 URL, 每个 URL 必须单独占一行,不能出现“Disallow: /cgi-bin/ /tmp/”这样的病句。同时在一个记录中不能出 现空行,这是因为空行是多个记录分割的标志。 User-agent行指出的是Robot或其他代理的名称。 在User-agent行, * 表示所有的Robot。 下面是几个 robot.txt 的例子: 在整个服务器上拒绝所有的 robots:User-agent: *Disallow: / 允许所有的robots访问整个站点: User-agent: *Disallow: ; 或者产生一个空的“/robots.txt”

3、 文件 服务器的部分内容允许所有的 robot 访问 User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/ 拒绝某一个专门的 robot:User-agent: BadBotDisallow: / 只允许某一个 Robot 光顾:User-agent: WebCrawlerDisallow:User-agent: *Disallow: / 最后我们给出 http:/www.w3.org/站点上的 robots.txt:# For use by search.w3.org User-agent: W3Crobot/1

4、 Disallow: User-agent: * Disallow: /Member/ # This is restricted to W3C Members only Disallow: /member/ # This is restricted to W3C Members only Disallow: /team/ # This is restricted to W3C Team only Disallow: /TandS/Member # This is restricted to W3C Members only Disallow: /TandS/Team # This is res

5、tricted to W3C Team only Disallow: /Project Disallow: /Systems Disallow: /Web Disallow: /Team Robots METAtag 的格式为: METANAME=“ROBOTS“ CONTENT=“NOINDEX, NOFOLLOW“ 像其他的 METAtag 一样,它应该放在 HTML 文件的 HEAD 区: html head meta name=“robots“ content=“noindex,nofollow“ meta name=“description“ content=“This page .

6、“ title./title/head body .Robots METAtag 指令用逗号隔开, 可以使用的指令包括NOINDEX 和NO FOLLOW。 INDEX 指令指出一个索引性 Robot 是否可以对本页进行索引,FOLLOW 指令指出 Robot 是 否可以跟踪本页的链接。缺省的情况是 INDEX 和 FOLLOW。例如:meta name=“robots“ content=“index,follow“ meta name=“robots“ content=“noindex,follow“ meta name=“robots“ content=“index,nofollow“ meta name=“robots“ content=“noindex,nofollow“ 在制作和维护 Web 时,应当考虑对 Web Robot 程序的管理。- 建立一个 robots.txt 文档, 如果你的网站是 ,拒绝访问 IMG 目录则为: 在 robots.txt 写上以下代码 # For use by Disallow: User-agent: * Disallow: /img/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号