爬虫爬取get/post等请求的数据
(此文章认为大家有一定基础而作)
一.请求地址
基于restful编程风格的崛起,不管是前端还是后端,大家应该对请求地址都不陌生。
一般大家获取页面请求地址可以直接用浏览器的开发者模式获取,如下面我用chrome截获本篇文章保存的请求地址:
选择开发者模式->Network;
左边表示我们请求的网页,右边是具体参数;
二、请求参数
在General模块可以清楚的看到我们请求的地址是https://mp.****.net/postedit/saveArticle;请求方法为 post;
RequestHeader里包含了请求头的信息如UserAgent,Cookie等,Cookie信息比较敏感我们就不贴了
再往下有FromData标签,表示post请求需要传递的参数,将这些请求参数与Cookie带入post请求中即可模拟请求获取想要的信息;
而get请求相对就比较简单了,参数会直接显示在请求地址中,在比如https://www.baidu.com/s?wd=爬虫爬取get/post等请求的数据
请求地址为https://www.baidu.com/s,参数为wd=爬虫爬取get/post等请求的数据,我们可以替换wd的值来获取我们想要的信息;
具体请求需要大家针对网站抓包分析;
前段时间遇到一个网站为 flash加载amf协议网页,用普通的浏览器、wireshark抓包只能抓得乱码数据,后来用Charles成功获得并分析请求参数,所以在此安利;