如何排除抓取工具以使用robots.txt为我的网站的特定页面编制索引?
问题描述:
我想这对我的根robots.txt
:如何排除抓取工具以使用robots.txt为我的网站的特定页面编制索引?
User-agent: *
Allow:/
Disallow: /*&action=surprise
Sitemap: https://example.com/sitemap.php
我想从检索网址像排除:
从access.log
文件我再次看到一些机器人击中这些网址。
我做错了什么或只是有些机器人没有跟随我的robots.txt
设置?
答
我必须说,并非所有的机器人都会遵守规则并遵循robtos.txt。 你需要添加一些抗履带高科技禁止访问... 如:
- 检查用户代理
- 算螺栓
我忘记的主要工具的IP! Google在网站站长控制台中有一个“robots.txt”测试器。我的'robots.txt'看起来很正确,但像Ahrefs这样糟糕的机器人忽略了它。 – NineCattoRules