SEO必须掌握的robots.txt文件写法

阅读  ·  发布日期 2018-11-01 11:01  ·  admin
作为一个SEO如果你不了解robots.txt文件的写法,可以说简直是一种罪恶,可见robots.txt文件对SEO的重要性,今天沈阳SEO就跟大家分享下robots.txt文件的正确写法,不过在这之前,我们照顾下小白,先来讲讲什么是robots.txt文件?
 
什么是robots.txt文件?
 
robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。这下知道这个文件对于网站的重要性了吧。
 
robots.txt文件有什么具体作用?
 
1、屏蔽网站内的死链接。(网站改版后出现的死链、网站被攻击时来不及删除的目录文件和链接)
 
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
 
3、阻止搜索引擎索引网站隐私性的内容。(例如网站后台的登陆地址)
 
robots.txt文件怎样写?
 
沈阳SEO首先先给大家介绍几个robots中用到的名词:
 
(1)、User-agent:意思是定义搜索引擎类型
 
因为搜索引擎有好几种有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;SOSO蜘蛛:Sosospider;有道蜘蛛:YoudaoBot;搜狗蜘蛛:Sogou News Spider
 
一般没有特殊要求的话,正确写法是:User-agent: * 意思是允许所有搜索引擎来抓取。这是robots.txt文件中第一行的写法。
 
(2)、Disallow:意思是定义禁止抓取的地址
 
就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。它的正确的写法如下:
 
Disallow: / 禁止蜘蛛抓取整站(一定不能这么写,这样会让所有搜索引擎不来抓取你的网站内容)
 
Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。
 
Disallow: /page/ 禁止抓取网站中带page的文件夹。
 
Disallow: /*?* 禁止抓取网站中的所有动态路径。
 
Disallow: /.js$ 禁止抓取网站中的所有带.js的路径。
 
Disallow: /*.jpeg$ 禁止抓取网站中所有jpeg图片
 
(3)、Allow:意思是定义允许抓取收录地址
 
这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许。因此大家没必要写上。
 
(4)、常用的一些语法符号
 
/ 如果只是一个单个/,搜索引擎会认为是根目录
 
* 是所有的意思;例如:Disallow: /*.jpeg$ 是禁止抓取网站中所有jpeg图片
 
$ 是结束符
 
以上内容就是沈阳SEO为大家分享的robots.txt文件的定义、作用以及正确的写法,这是SEO一项非常重要的优化操作,大家一定要熟练掌握!