酷酷问答>生活百科>搜索引擎蜘蛛爬行原理、对网站抓取规律是什么

搜索引擎蜘蛛爬行原理、对网站抓取规律是什么

2024-12-28 13:40:52 编辑：zane 浏览量：607次

搜索引擎蜘蛛爬行原理、对网站抓取规律是什么

的有关信息介绍如下：

搜索引擎蜘蛛我们通常称它为机器人，是一种能够自己抓取网站，下载网页的程序。它可以访问互联网上的网页、图片、视频等内容，喜欢收集对用户有用的内容，而且如果他觉的你好的话，会定期来看你哦，我们要做的事情就是把它们伺候好，顺其意投其好。

《百度蜘蛛：baiduspider》《google蜘蛛：googlebot》《yahoo蜘蛛：slurp》《alexa蜘蛛：ia_archiver》《man蜘蛛: msnbot》《soso蜘蛛: sosospider》《bing蜘蛛: bingbot》《altavista蜘蛛:scooter》《lycos蜘蛛:lycos_spider_(t-rex)》《alltheweb蜘蛛：fast-webcrawler/》《有道蜘蛛：yodaobot和 OutfoxBot》《inktomi蜘蛛:slurp》《搜狗蜘蛛：soguo spider》《热士蜘蛛：Adminrtspider》

蜘蛛程序分为三个部分：控制器，解析器和索引数据库。1.控制器负责收集URL集合并分配URL集合给解析器。2.解析器获得URL集合后，通过访问URL并下载页面。3.索引数据库存储解析器下载的页面并分析页面内容，以此来确认是否建立数据缓存。

百度蜘蛛：爬谨慎，收录更谨慎。google蜘蛛：不太爱爬，但爱收录。搜搜蜘蛛：爱爬图片，经常绕在动态地址里出不来。雅虎蜘蛛：恪守规则，每次都是先爬robots.txt。

百度的表现：写了禁止之后很少爬，但是偶尔也会爬，相信是起作用了，因为越来越少，以前一天几次现在几天一次；

google表现：写了禁止就不再爬，会在谷歌站长工具中列出来它想爬被你阻止了；

搜狗蜘蛛：可以说是基本不听话，也不知道是不是不吃这个规则，说它完全不吃它也吃了一点，只是把动态地址的问号拿掉了，然后照爬，一爬就是一大片，这不知道它能爬出什么东西；

搜搜蜘蛛跟雅虎蜘蛛好像差不多，感觉还是挺有效的，禁止之后没有爬过的痕迹。

一般来说百度搜索引擎是每周更新，网页重要性有不同的更新频率，频率在几天至一月之间，baiduspider会重新访问和更新一个网页。

google蜘蛛，它会访问制定的网页，收集该网页上的链接，而且会顺着这些链接找其他的网页，通过这些链接，把世界上的网页连成了一个巨大的网，所以这些在网络上爬行的Googlebot也被称为Google蜘蛛。

百度蜘蛛，它的作用是访问互联网上的html网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站的网页。