robot文件如何创建
的有关信息介绍如下:有时候,我们的网站有些后台地址或者是动态地址等不希望被搜索引擎搜索到,这时候robot文件就起到它的作用了。
制定搜索引擎如何索引你网站的规则,限定哪些页面允许被索引,哪些页面不允许被索引。
(1)当网站本身并不存在robots文件的情况下,新建一个纯文本文档,命名为robots.txt,在此文件中进行编辑,完成后传到对应网站的根目录下即可。
(2)网站本身存在robots文件的情况下,下载原robots文件进行编辑,完成后传到对应网站的根目录下。
User-agent: *
Disallow:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,也可以是具体的搜索引擎蜘蛛,如Baiduspider 百度蜘蛛
Disallow: 按设置禁止访问某些页面,不加内容,表示无限制
如 Disallow: /*?* 表示禁止访问网站中所有包含问号 (?) 的网址
如下图所示:表示禁止百度蜘蛛访问网站中所有包含问号 (?) 的网址
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /目录名/ 禁止访问某个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
允许所有搜索引擎访问网站的所有部分
User-agent: *
Disallow:
禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /
禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
禁止蜘蛛访问某个目录(如禁止admin,css,images三个目录被索引)
User-agent:*
Disallow: /css/
Disallow: /admin/
Disallow: /images/
(注意三个目录需要分开写,一行写一个)
禁止索引网站中所有含有“?”网址
User-agent: *
Disallow: /*?*
还有很多相关设置,在这里无法做一一列举,需要大家触类旁通,以及下载一份较全的robotot文件语法。
Googlebot:谷歌蜘蛛
Baiduspider:百度蜘蛛
Yahoo! Slurp :雅虎蜘蛛
robots.txt文件名必须是全小写
有多项设置的时候,必须分开写,一行一个设置
最好下载一份语法大全,对照着写,不然很容易出错,可能造成严峻的问题
robots.txt 主要有个s哦,小编刚刚就犯了个不可原谅的错误,写成了robot.txt