网络爬虫和GET与POST请求

网络爬虫和GET与POST请求

问题描述:

我听说网络爬虫应该只遵循GET请求,而不是POST请求。网络爬虫和GET与POST请求

在现实世界中,这是一个有效的假设吗?

+0

这确实取决于抓取工具的类型。 – Alex 2009-08-29 08:53:14

通常他们不会执行POST请求。我相信,这只是当前的事态,并不是任何地方的决定因素。一些搜索引擎是experimenting with crawling forms,但这些仍然是GET请求。

+0

两年后,[Google改变了这种情况。](http://googlewebmastercentral.blogspot.de/2011/11/get-post-and-safely-surfacing-more-of.html)事实上,我有谷歌发布我的忘记密码和登录表单,这对我来说绝对没有意义,而且看起来很可怕。 – korkman 2015-05-23 02:33:01

你在问,抓取工具是否会从表单标签中解析出网址并遵循它们?有些人会。这是一个非常安全的假设,他们总是会使用GET动词。

垃圾邮件机器人是一个不同的故事。

+0

我的主要问题是他们是否会使用POST动词。 – 2009-06-19 19:23:39

+0

没有人愿意。但这只是一个请求标题,而且很多人有不良的意图。设计为邪恶。 – marr75 2009-06-20 18:03:51

礼貌抓取工具只使用GET请求。就像礼貌的爬虫遵守bots.txt一样。

然而,即使谷歌随着礼貌的定义玩得很快而松散,他们的爬虫已经对一些站点包括计算器进行了严重的带宽损害。