揭秘谜题:百度首页收录又消失,了解其中的奥秘!
今天,就一起看看最新百度站长工具官网的Sitemap地图。
从上图可以看出,站长工具首页只保留了百度地图的入口,且不支持抓取全部功能。
从这里我们可以看出,网站的robots、nofollow等作用不大。但是由于搜索引擎的算法改变,已经取消了robots的使用,且在各功能上进行了一定的调整。对于这个功能,对于百度来说,意义不大。
百度站长工具的sitemap地图只保留了百度地图的入口,并且已经取消了抓取全部功能。这对于百度来说意义不大。
我们也可以通过百度站长工具的sitemap地图了解到,百度蜘蛛在爬行的时候是根据网站的内容更新来进行抓取的。我们通过sitemap地图能看出百度蜘蛛在进行抓取时都有哪些内容,也可以通过百度站长工具的链接提交功能了解。
从这里可以看出,百度蜘蛛对于网站地图的抓取都有一定的规律。相对来说,更加习惯于抓取网站的网站地图。
从上图可以看出,百度蜘蛛每天更加频繁的来抓取网站的内容。
上图的百度蜘蛛对于网站地图的抓取更新规律是每月更新一次,所以不容易出现百度不收录的问题。当然这种更新规律并非是百分百的固定,可能还会有些许不同的情况。
2、网站页面收录情况
百度蜘蛛在进行抓取的时候,是根据页面的内容更新来进行抓取的。因为百度蜘蛛在进行抓取的时候,一般都是根据页面内容的多少来进行更新。所以这里边我们可以看到,百度蜘蛛对于网站页面的抓取频次并没有明显的规律性。
这种现象在短的时间内可以让蜘蛛发现很多的信息,并且能够快速的爬行到新的页面。
但是如果我们所能够看到的是一段时间后百度蜘蛛仍然没有发现任何的新内容,或者就是长时间没有更新,那么这时候百度蜘蛛是不会进行抓取的。
3、百度蜘蛛的抓取频率
搜索引擎的蜘蛛是一个动态的程序,对于网站页面是很容易判断出来的,只有当网站内容比较多的时候,蜘蛛才会去爬行这个网站。这个时候我们的网站页面是很容易被抓取的。
上图便是一个例子。
4、网站的历史收录情况
我们在浏览网页的时候,会发现有一个网站页面,上面有一个抓取的日志。上图是百度蜘蛛的日志。上面的文字是蜘蛛的爬行日志。
百度蜘蛛爬行日志的日期是2012年10月30日。上图是2012年10月30日的搜索引擎抓取日志。