在Python中请求之间的时间?

问题描述:

使用python请求模块(获取函数)我在抓取链接即爬虫。我使用脚本发出多个请求。由于我提出的请求太多,Google干预了CAPTCHA,并在一段时间后重置。我使用时间模块在每次请求后将代码放入睡眠状态一段时间以避免它。我想知道什么时候才能让脚本进入睡眠状态,以便Google不会将其视为无效流量? (我使用的是大学的代理服务器)在Python中请求之间的时间?

+1

Google使用多个参数来确定异常流量。他们显然没有分享这些参数,但我不认为请求延迟是最重要的。用户代理,JS,referer如何?如果你没有碰到这些,它会尖叫“我是一个机器人”。 – leovp