WordPress网站robots.txt设置终极指南

搜索引擎不断改进它们抓取网络和索引内容的方式。这意味着几年前的最佳策略不再有效,甚至可能损害网站。

如今,最佳策略意味着尽可能少地依赖robots.txt文件。实际上,只有在遇到复杂的网站类型(比如,具有分页导航的大型电子商务网站)而没有其他办法时,才真正需要设置robots.txt文件中的阻止URL。

通过robots.txt阻止URL是一种“蛮力”方法,可能会导致比其他无法解决的问题。

对于大多数WordPress网站,以下示例是最佳设置:

User-Agent: *
Disallow:

Sitemap: https://www.xxxx.com/sitemap.xml

此代码有什么作用?

这个代码有什么作用?

  • 该指令指出,以下任何说明都适用于所有爬网程序。User-agent: *
  • 由于没有提供任何进一步的说明,因此说的是“所有抓取工具都可以不受限制地自由抓取此网站”。
  • 该指令没有进一步的说明,因此我们说,“所有抓取工具都可以不受限制地自由抓取此网站。Disallow:
  • 在robots.txt文件中,链接到XML站点地图,可以其他搜索引擎更容易找到它。
  •  

为什么这是“极简主义”的最佳策略?

robots.txt容易制造死胡同

在争夺搜索结果的可见性之前,搜索引擎需要发现、抓取和索引网页。如果通过robots.txt阻止了某些网址,搜索引擎将无法再抓取这些网页来发现其他网址。这可能意味着关键页面不会被发现。

robots.txt否认链接的价值

SEO的基本规则之一是来自其他页面的链接可能会影响您的表现。如果某个 URL 被阻止,搜索引擎不仅不会抓取它,而且它们也可能不会将任何指向该 URL 的“链接值”分发到该网站的其他页面,也不会通过该 URL 分发到网站上的其他页面。

链接到 XML 站点地图有助于发现

robots.txt标准支持将XML站点地图的链接添加到文件中。这有助于搜索引擎发现您网站的位置和内容。对于必应,它需要此链接来验证您的网站 – 除非您通过其网站站长工具添加了指向站点地图的链接。

声明:本站资源绿色无后门无广告,可放心下载。如无特殊说明或标注,均为本站原创发布,转载请注明出处!

《WordPress网站robots.txt设置终极指南》有1条评论

评论已关闭。