|
软件名称:robots详解 |
软件类型:系统安全 |
|
授权方式:破解注册 |
软件大小:
未知
|
运行环境:Win9x, WinNT, Win2000, WinXP |
软件评价:
|
相关链接:作者
/ 厂商主页 |
上传时间:2012-03-03 |
本日下载:1 次 所有下载:1097
次 |
软件简介:
robots是什么东西?
如果把网站比作一户人家的话,那么robots就可以比做那户人家的大门。我们都知道搜索引擎是通过蜘蛛(spider)的程序自动爬寻网站的各个页面的,不管你的网页是否是隐私,蜘蛛都会通通帮你搜出来,这就可能造成你的隐私信息被公开。为了防止这种情况的发生,所以蜘蛛访问你的网站的时候就会在网站根目录先查看有没有robots.txt文件,并且读取里面的文件,看哪些页面是可以访问的,哪些目录是不能访问的。所以为了网站的安全考虑,一定要加上robots这个文件。如果蜘蛛在根目录找不到这个文件的话,还会返回一个404的状态(放一个空的robots文件也可以避免)。
robots的格式
在网站根目录下,建个记事本,起名为robots.txt。这个是最简单的robots文件,但是有几点要注意的:
1、必须放在网站根目录下
2、必须是纯文本文件
3、 文件名必须为 robots.txt,并且必须为小写
4、里面的内容通常包含一条或多条规则记录, 通过换行分开,每一条记录都是由一行或者多行User-agent开始,后面加上无数 Disallow行,具体如下:
User-agent::
该项主要描述的是蜘蛛的名字,如果有多条,说明有多个蜘蛛受到此规则的限制。当然如果是 * 好的话,那就说明所有的蜘蛛都受到限制;不过在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如“Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而“Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在robots.txt文件中,至少要有一条Disallow记录。如果robots.txt为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
使用robots.txt举例:
(1). 禁止所有搜索引擎访问站点的任何部分。
User-agent:*
Disallow:/
(2).允许所有的蜘蛛进行访问。
User-agent:*
Disallow:
或者你可以直接建立一个空的robots.txt文件。
(3).禁止某个搜索引擎的访问。
User-agent:badbot
Disallow:/
举例分析:淘宝网的 robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
你看,很显然的,淘宝不运行百度蜘蛛访问站点的任何目录或者文件。
这里,Disallow的值也可以为地址,意思就是禁止对所包含URL的访问。
(4).允许某个搜索引擎的访问。
User-agent:baiduspider
Disallow:User-agent:*disallow:/
有一个站的robots是这样写的:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
该站在这个robots中对三个目录进行了禁止访问的声明。请注意这里,在写robots的时候,一个目录必须声明一次,而不能:“Disallow: /cgi-bin/ /tmp/”这样来写。User-agent:后面的“*”代表any robot。
(5).放行一个,禁止一个。
如果你想禁止除了Google以外的搜索引擎的访问,那么可以这样写。
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Google不会看到第一二条声明以后就走,它会跟随下面一个声明来执行。
(6).在Google中,还有Allow这样一个量。
Allow的功能作用与Disallow一样。你可以同时使用这两个量,比如,你要禁止一个目录中某个文件之外的其他所有文件。那么就可以使用下面的语句来实现。
User-Agent:Googlebot
Disallow:/xiaomeng/
Allow:/xiaomeng/myfile.html
这里,将禁止xiaomeng这个目录下除myfile.html之外的所有页面。
(7)."*"的使用。
不知道你学过编程没有,或者应该见过*可以作为“代替”的一种标识符。这里独孤晓梦举例,比如要禁止所有以idea开头的目录的访问,就可以用到,语句如下:
User-Agent:Googlebot
Disallow:/private*/
(8)."$"的使用。
$字符可以与制定的URL的结束字符进行匹配。比如,你要禁止搜索引擎访问以.asp结尾的地址的时候,就可以:
User-Agent:googlebot
Disallow:/*asp$
具体的百度蜘蛛的名字,可以查看什么是百度蜘蛛这篇。
除了百度的蜘蛛外,还有一些其他的蜘蛛名字,可以熟悉一下:Google的蜘蛛是“Googlebot”,Yahoo的是“Yahoo!Slurp”,MSN的蜘蛛则是“MSNbot” ,Alexa也有自己的蜘蛛,叫“ia_archiver”。
小提示:
至于我们防止写错robots.txt文件,我们可以借用谷歌站长工具中的site map 工具检查一下。
|
点击下载
下载站二
下载站三
|
推荐使用 网际快车 或 迅雷等工具
下载,使用 WinRAR v3.0以上 或 WinZip
8.1 解压缩! 如果链接本站本地软件,请务必注明软件来自
金博士电脑科技-下载精品软件-下载精品书籍!,谢谢您的理解与支持!
本站软件都是来自网络,一切破解 仅供学习研究,软件版权仍属原作者或厂商所有!
欢迎广大软件作者以及厂商在本站 发布软件,本站将为您予以能力范围以内的推广!
|
|
|