一、robots.txt文件的作用:
1、屏蔽网站内的死链接。
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3、阻止搜索引擎索引网站隐私性的内容。
网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,因此通过建立robots.txt文件给蜘蛛指路是很有必要的。
二、经常使用到robots文件的情况
网站升级
老版本的很多页面在新版本网站中去掉了,在这种情况下,可以通过 Robots文件告诉蜘蛛不再抓取这些已经去掉的页面。
网站存在很多重复的内容
比如一个网站同时存在动态页面和已经经过静态化处理的页面,这些页面在内容上都是完全重复的内容,为了解决重复的问题,可以在Robots文件中禁止蜘蛛抓取动态页面。
网站内部有些内容不便于公开发布,但是需要允许内部查阅。遇到这种情况,可以在Robots中告诉蜘蛛不要抓取。
三、robots.txt文件注意事项:
1、必须放置在一个站点的根目录下;
2、文件名必须全部小写;
3、最好是UTF-8编码。
四、robots.txt写作语法
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt"
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02目录)
User-agent: *
Disallow: /01/
Disallow: /02/
我们来看一个robots.txt范例:百恒网络http://www.nczwz.com/
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
User-agent: *
Disallow:
Disallow: /bin/
Disallow: /adminbase/
Sitemap: http://www.nczwz.com/sitemap.xml禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow: