Website Spidering Auto Detection
答
良好的蜘蛛
- 读取的robots.txt
- 有一个正确的用户代理
- 将查询的速度比平均用户
但一个明确的检测,如果它是一个浏览器或蜘蛛是不可能的,我想。
答
您尝试使用用户代理字符串来识别机器人。
不同的漫游器似乎有不同的用户代理字符串:
http://www.useragentstring.com/pages/useragentstring.php
然而,用户代理字符串可以容易地伪造。
答
您可以使用常用机器人使用的用户代理字符串列表。您可以使用某种形式的费率检测,并确定非常高的请求率可能是一个蜘蛛(或有人榨取您的整个网站)。
也可能有常用机器人使用的IP地址列表,但防呆检测系统最可能不可能。
您可以在您的网页上创建一个真实访问者永远不会点击的链接,并标记任何确实遵循该链接为蜘蛛的人。无论如何,你会得到一些人点击链接,但好奇心无法避免。
答
如果蜘蛛很好,可以通过它的用户代理使用现有用户代理列表(如this)来检测它。但一个漂亮的网页通常也会遵循robots.txt约定
忽略robots.txt文件并欺骗其用户代理的机器人很可能也使用其他方法隐藏它们是蜘蛛。