站长朋友们都知道,robots是网站站点与搜索引擎蜘蛛程序沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录的部分。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。那么在南昌网站建设中应如何设置Robots文件呢?下面我们就一起来看看吧!
1、允许所有搜索引擎访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
在这里大家要注意下,可以直接建一个空文件 “robots.txt”然后放到网站的根目录。
2、禁止所有搜索引擎访问
User-agent: *
Disallow: /
或者
User-agent: *
allow:
3、禁止所有搜索引擎访问网站中的几个部分,用aa、bb、cc目录来代替
User-agent: *
Disallow: /aa/
Disallow: /bb/
Disallow: /cc/
如果是允许,则是
Allow: /aa/
Allow: /bb/
Allow: /cc/
4、禁止某个搜索引擎的访问,在此用x来代替
User-agent: x
Disallow: /
或
User-agent: x
Disallow: /d/*.htm
在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
5、只允许某个搜索引擎的访问,在此用f来代替
User-agent: f
Disallow:
在Disallow:后面不加任何东西,意思是仅允许f访问该网站。
6、使用”$”限制访问url
User-agent: *
Allow: .htm$
Disallow: /
意思是仅允许访问以”.htm”为后缀的URL
7、只允许搜索引擎E抓取网页和.gif格式图片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片
关于robots文件的使用方法就先介绍到这里了,如果还有哪些不明白的地方,可随时来电和我们联系。此外,百恒网络专注于南昌做网站、小程序开发、物联网开发等服务。如有需要,我们将随时为您效劳!