石家庄网站优化/百度针对网站爬行原理探究

阅读  ·  发布日期 2019-01-07 15:37  ·  admin

石家庄网站优化/百度针对网站爬行原理探究,正常情况下网站上线后,百度通过对网站核查后就会对网站进行收录,之后会根据网站的质量对网站进行爬行评分,然后匹配排名。而如果网站的某些页面或者针对某些搜索引擎的特殊要求不希望被其爬行收录的话,我们也可使用robot文件等操作方式来屏蔽搜索引擎蜘蛛的爬行。那么,搜索引擎之于网站的爬行是依照什么原理来进行的呢?这就是今天笔者小丹和大家一起来探究的问题了。

    robots.txt文件是为了告诉百度哪些页面你可以爬行但是不可以留存快照,或者说你不可以爬行。而收录快照则是百度需要对网站页面进行评分,且用如果我们的网站打不开了,用户也可以通过快照打开。正确的理解就是百度快照就是百度抓取网站页面后,保存在自己数据库中的我们的网站数据。为了减少百度资源浪费,抓取的快照有时候无法完全保存你的整个页面,例如大图和动态特效位置就无法保存。

    百度爬行网站,更新的捏快照,其实并不百分百是爬行了网站页面,也有可能是爬行了百度的数据库快照索引,这样可以增加百度爬行速度,减少百度蜘蛛资源浪费。那么不允许百度保存你的快照的作用就是每一次来人,每一次百度评分你的页面,那么百度都必须去完全的分析你的页面,而不是去分析你的百度数据库保存的老页面,这样帮助你的网站页面实时获得最新的评分。告诉百度不允许爬行某个页面的命令来源于robots文件,百度爬到这个文件的时候不会给这个页面权重,但是如果百度从别的页面进入这个网站这个页面依然可以获得权重。

    同样的,第二个可以达到屏蔽抓取的就是nofollow标签,当我们在网站中任何位置给某一个链接添加了nofollow标签属性的时候,就是告诉百度这个链接将不会获得我的网站的任何权重。如,首页域名的带www域名本身极少内容页和栏目页,所有栏目做二级域名,首页的外部指向链接做nofollow不给其权重而自己的二级域名不做nofollow则本身带www页面无栏目、无内容、权重有限,就一个单独的网站页面,所有的二级域名网站整站传递权重给带www的页面,则带www页面只给部分二级域名站内容页和二级域名站首页传递权重,这样带www的网站首页依然获得比传出去多得多的权重,累计权重排名。

    当然上面讲到的操作方式适合大型网站站点的集权操作,而小型站点则不必。因为小型网站尤其是普通的企业站点栏目分类本来就很少,如果我们做成网站二级域名的形式则我们二级站点域名传递给主站的权重就会很少,这样不但不能够帮助主站提上权重排名,还会影响二级域名站点的独立成长,得不偿失。