模拟发请求的方式抓取网页数据(接口爬虫)

在做爬虫时经常会发现有些网站不能通过拼接的方式获取地址,例如在该网站中,无论怎么翻页,网址都是不会变化的,没有页数的参数。
模拟发请求的方式抓取网页数据(接口爬虫)

一般这种情况下都是会采用模拟浏览器的方式,模拟翻页,这是可以实现的,但是存在一些问题:
1、模拟浏览器速度上会受影响,浏览器很容易会出现bug挂掉
2、我们不知道需要模拟翻页多少次
这个时候就可以查看网页使用什么样的请求获取到的数据,那我们采用一样的请求方式就可以获取到数据了。

点击F12打开编程模式,如果下面有内容就点一下clear清空一下
模拟发请求的方式抓取网页数据(接口爬虫)
然后点击翻页,右边就会显示发起的请求,点击对应的请求
模拟发请求的方式抓取网页数据(接口爬虫)
点击header,
请求网址Request URL
请求方式Request Method
下拉,得到请求的其他参数Form Data
模拟发请求的方式抓取网页数据(接口爬虫)
模拟发请求的方式抓取网页数据(接口爬虫)
然后,我们模拟发送相同的请求,就可以得到相应的数据啦