如何排除抓取工具以使用robots.txt为我的网站的特定页面编制索引?

问题描述:

我想这对我的根robots.txt如何排除抓取工具以使用robots.txt为我的网站的特定页面编制索引?

User-agent: * 
Allow:/
Disallow: /*&action=surprise 

Sitemap: https://example.com/sitemap.php 

我想从检索网址像排除:

​​

access.log文件我再次看到一些机器人击中这些网址。

我做错了什么或只是有些机器人没有跟随我的robots.txt设置?

+0

我忘记的主要工具的IP! Google在网站站长控制台中有一个“robots.txt”测试器。我的'robots.txt'看起来很正确,但像Ahrefs这样糟糕的机器人忽略了它。 – NineCattoRules

我必须说,并非所有的机器人都会遵守规则并遵循robtos.txt。 你需要添加一些抗履带高科技禁止访问... 如:

  1. 检查用户代理
  2. 算螺栓