网站频繁出现304状态码及抓取蜘蛛次数较少的原因

阅读  ·  发布日期 2021-08-11 15:50  ·  admin

经常会碰到站长们诉苦蜘蛛抓取回来码老是304状况,且抓取的次数越来越少的问题。查找引擎为了本身的用户体会,会想尽办法来进步检索调用率、准确性、新鲜度,这将导致引擎不得不把首要的精力放在具有优质内容源的网站上。惟其如此,查找成果的质量才干愈加契合查找者的体会。

 
    由此咱们联想到:查找引擎爬虫会愈加喜爱内容源更新频频的网站。经过特定时间内对网站抓取回来的状况码来调理对该网站的抓取频频。若网站在必定时间内一向处于[304:没有改变]的状况,那么引擎爬虫可能会降低对网站的抓取次数。相反,若网站改变的频率十分之快,每次抓取都能获取新版本,那么日积月累,爬虫的回访率也会进步。
 
    无论是抓取少仍是304,这都是一种现象,并不是问题的原因,假设网站回来的都是200,就能达到进步排名带来流量的意图么?相比之下更应该思考发生304的原因是什么?改304对网站方针能够有什么样的作用?不能忽视整体的方针而侧重过程的细节,为了200而去处理304。
 
    304状况是怎么发生?
 
    服务器为了进步网站拜访速度,对之前拜访的部分页面制定缓存机制,当客户端在此对这些页面进行恳求,服务器会根据缓存内容判别页面与之前是否相同,若相同便直接回来304,此刻客户端调用缓存内容,不用进行二次下载,能够说304从某种角度起到了削减服务器带宽并进步蜘蛛匍匐效率的作用。
 
    304状况发生原因?
 
    1、页面更新周期长或不更新
 
    2、纯静态页面或强制生成静态html
 
    304状况处理思路?
 
    1、先对发生304页面进行细分,到底是哪类页面回来了304?这些页面是否应该回来304?
 
    2、这些页面生成的方法是怎样的?是否有更新机制?更新机制是否契合蜘蛛对网站的抓取频率?
 
    3、页面更新区域的方位是否合理?是否坐落该页面首要内容的承载区域?
 
    咱们论坛的 @李亮堂 同学也对此情况做了剖析:
 
    304状况码呈现过多会造成以下问题:
 
    1、网站快照中止
 
    2、录入削减
 
    3、权重下降
 
    那么怎么削减304回来码呢?
 
    据我所知,首要内容更新方面要投合百度蜘蛛,剖析日志,把蜘蛛到访的时间记录下来,能够大致得出蜘蛛到访的频率,然后以此为根据,更新文章:必定是原创+转载,不能纯收集。转载也需求新的优质资源。让蜘蛛这个点过来能有吃的。然后回来更多 200 正常码。
 
    其次呢,增加个互动版块,现在大网站基本已经都做了这方面,比方谈论、留言等,大网站更新起来改变可能会很小,但是有了这些互动,用户会在上面发些内容,网站会有许多新的东西。如seowhy,就会把新回复以及问题放在重要方位。
 
    结束
 
    本期咱们侧重评论了关于频频回来 304 状况以及抓取次数较少的问题,意图是为了让网站充沛的被抓取。除了以上达人剖析的原因外,小编觉得引擎蜘蛛相同也会参阅网站归纳权重,对于权重高的网站抓取频率会很频频,比方 Google 可能会参阅 PR 值来决议网站的抓取频率。