robots协议是什么意思?

魁首哥

作者

Robots其实指的是robots协议(又称爬虫协议、机器人协议)，全称是“爬虫排除标准”。网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。

而承载这些协议的文件是robots.txt文件，那么robots.txt文件的作用是什么呢?如何编写robots协议以及注意事项将在今天的这篇文章中向您详细介绍。

如前所述，这个文本文件带有robots协议，它告诉所有搜索引擎这个网站的哪些页面可以被抓取，哪些页面禁止被抓取。这有两层意思：

1、保护隐私。

有些目录或页面不希望或不能被外界看到。搜索引擎可能不知道这些情况，但还是会照常抓取和显示这些页面。可以通过robots设置限制，搜索引擎蜘蛛就会放弃抓取，外界也不会通过搜索引擎知道这些机密信息。

2、调整抓取网页面的数量。

众所周知，各个网站蜘蛛抓取的配额是有限的。如果我们禁止一些不重要的页面被抓取，那么把配额留给那些重要的页面，就会有更多的机会被抓取。

Robots协议还可以设置特定的搜索引擎进行许可或禁止。其实一般情况下，并不需要区分搜索引擎，而是统一设置抓取权限。

1、禁止所有搜索引擎访问网站。

User-agent: *

Disallow: /

2、允许所有搜索引擎访问网站

User-agent: *

Allow: /

3、所有的蜘蛛都被禁止访问网站的某个目录。

User-agent:*

Disallow: /test/

这是最基本的用法。robots协议有很多技巧。我建议你仔细阅读它的协议。

有站长说我的网站没有禁止抓取的页面，所以不需要设置robots文件。这在理论上行得通。不过我建议即使网站完全开放，也最好建立一个robots文件，比如我的网站的件：http://www.70zyw.cn/robots.txt，一般放在网站的根目录下。

发布于 2022-11-26 10:00:43

喜欢 0

海报

0 条评论

本站已关闭游客评论，请登录或者注册后再评论吧~