搜索引擎不断改进它们抓取网络和索引内容的方式。这意味着几年前的最佳策略不再有效,甚至可能损害网站。
如今,最佳策略意味着尽可能少地依赖robots.txt文件。实际上,只有在遇到复杂的网站类型(比如,具有分页导航的大型电子商务网站)而没有其他办法时,才真正需要设置robots.txt文件中的阻止URL。
通过robots.txt阻止URL是一种“蛮力”方法,可能会导致比其他无法解决的问题。
对于大多数WordPress网站,以下示例是最佳设置:
User-Agent: *
Disallow:
Sitemap: https://www.xxxx.com/sitemap.xml
此代码有什么作用?
这个代码有什么作用?
- 该指令指出,以下任何说明都适用于所有爬网程序。
User-agent: *
- 由于没有提供任何进一步的说明,因此说的是“所有抓取工具都可以不受限制地自由抓取此网站”。
- 该指令没有进一步的说明,因此我们说,“所有抓取工具都可以不受限制地自由抓取此网站。
Disallow:
- 在robots.txt文件中,链接到XML站点地图,可以其他搜索引擎更容易找到它。
为什么这是“极简主义”的最佳策略?
robots.txt容易制造死胡同
在争夺搜索结果的可见性之前,搜索引擎需要发现、抓取和索引网页。如果通过robots.txt阻止了某些网址,搜索引擎将无法再抓取这些网页来发现其他网址。这可能意味着关键页面不会被发现。
robots.txt否认链接的价值
SEO的基本规则之一是来自其他页面的链接可能会影响您的表现。如果某个 URL 被阻止,搜索引擎不仅不会抓取它,而且它们也可能不会将任何指向该 URL 的“链接值”分发到该网站的其他页面,也不会通过该 URL 分发到网站上的其他页面。
链接到 XML 站点地图有助于发现
robots.txt标准支持将XML站点地图的链接添加到文件中。这有助于搜索引擎发现您网站的位置和内容。对于必应,它需要此链接来验证您的网站 – 除非您通过其网站站长工具添加了指向站点地图的链接。
水电费