爬虫爬取get/post等请求的数据

一.请求地址

基于restful编程风格的崛起，不管是前端还是后端，大家应该对请求地址都不陌生。

一般大家获取页面请求地址可以直接用浏览器的开发者模式获取，如下面我用chrome截获本篇文章保存的请求地址:

爬虫爬取get/post等请求的数据

选择开发者模式->Network;

左边表示我们请求的网页，右边是具体参数；

在General模块可以清楚的看到我们请求的地址是https://mp.****.net/postedit/saveArticle;请求方法为 post；

RequestHeader里包含了请求头的信息如UserAgent,Cookie等，Cookie信息比较敏感我们就不贴了

再往下有FromData标签，表示post请求需要传递的参数，将这些请求参数与Cookie带入post请求中即可模拟请求获取想要的信息；

爬虫爬取get/post等请求的数据

而get请求相对就比较简单了,参数会直接显示在请求地址中,在比如https://www.baidu.com/s?wd=爬虫爬取get/post等请求的数据

请求地址为https://www.baidu.com/s，参数为wd=爬虫爬取get/post等请求的数据，我们可以替换wd的值来获取我们想要的信息；

具体请求需要大家针对网站抓包分析；

前段时间遇到一个网站为 flash加载amf协议网页，用普通的浏览器、wireshark抓包只能抓得乱码数据，后来用Charles成功获得并分析请求参数，所以在此安利；