十年专注于网站建设与互联网应用开发,低调、有情怀的网络应用服务商!
南昌百恒科技微信公众号 扫一扫关注
tel-icon全国服务热线:400-680-9298,0791-88117053
扫一扫关注百恒科技微信公众号

robots文件的作用和设置细节

百恒 2019-11-05 15:41:11 63
      Robots文件放在网站的根目录下,主要用于通知在seo可以在这个文件中声明该网站中不想被搜索引擎收录的部分,或者指定搜索引擎只收录特定的部分。

  一、robots.txt文件的作用:

  1、屏蔽网站内的死链接。

  2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

  3、阻止搜索引擎索引网站隐私性的内容。

  网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,因此通过建立robots.txt文件给蜘蛛指路是很有必要的。

  二、经常使用到robots文件的情况

  网站升级

  老版本的很多页面在新版本网站中去掉了,在这种情况下,可以通过 Robots文件告诉蜘蛛不再抓取这些已经去掉的页面。

  网站存在很多重复的内容

  比如一个网站同时存在动态页面和已经经过静态化处理的页面,这些页面在内容上都是完全重复的内容,为了解决重复的问题,可以在Robots文件中禁止蜘蛛抓取动态页面。

  网站内部有些内容不便于公开发布,但是需要允许内部查阅。遇到这种情况,可以在Robots中告诉蜘蛛不要抓取。

  三、robots.txt文件注意事项:

  1、必须放置在一个站点的根目录下;

  2、文件名必须全部小写;

  3、最好是UTF-8编码。

  四、robots.txt写作语法

  允许所有的robot访问 

  User-agent: * 

  Disallow: 

  或者也可以建一个空文件 "/robots.txt" 

  禁止所有搜索引擎访问网站的任何部分 

  User-agent: * 

  Disallow: / 

  禁止所有搜索引擎访问网站的几个部分(下例中的01、02目录) 

  User-agent: * 

  Disallow: /01/ 

  Disallow: /02/ 

  我们来看一个robots.txt范例:百恒网络http://www.nczwz.com/

  访问以上具体地址,我们可以看到robots.txt的具体内容如下:

      User-agent: *

      Disallow: 

       Disallow: /bin/

       Disallow: /adminbase/

       Sitemap: http://www.nczwz.com/sitemap.xml

  禁止某个搜索引擎的访问(下例中的BadBot) 

  User-agent: BadBot 

  Disallow: / 

  只允许某个搜索引擎的访问(下例中的Crawler) 

  User-agent: Crawler 

  Disallow:
 
400-680-9298,0791-88117053
扫一扫关注百恒网络微信公众号

欢迎您的光顾,我们将竭诚为您服务×

售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售后服务 售后服务
 
备案专线 备案专线
 
售后服务 售后服务
 
×