爬虫爬取get/post等请求的数据

(此文章认为大家有一定基础而作)

一.请求地址

       基于restful编程风格的崛起,不管是前端还是后端,大家应该对请求地址都不陌生。

       一般大家获取页面请求地址可以直接用浏览器的开发者模式获取,如下面我用chrome截获本篇文章保存的请求地址:

爬虫爬取get/post等请求的数据

选择开发者模式->Network;

左边表示我们请求的网页,右边是具体参数;

二、请求参数

在General模块可以清楚的看到我们请求的地址是https://mp.csdn.net/postedit/saveArticle;请求方法为 post;

RequestHeader里包含了请求头的信息如UserAgent,Cookie等,Cookie信息比较敏感我们就不贴了

再往下有FromData标签,表示post请求需要传递的参数,将这些请求参数与Cookie带入post请求中即可模拟请求获取想要的信息;

爬虫爬取get/post等请求的数据

而get请求相对就比较简单了,参数会直接显示在请求地址中,在比如https://www.baidu.com/s?wd=爬虫爬取get/post等请求的数据

请求地址为https://www.baidu.com/s,参数为wd=爬虫爬取get/post等请求的数据,我们可以替换wd的值来获取我们想要的信息;

具体请求需要大家针对网站抓包分析;

前段时间遇到一个网站为 flash加载amf协议网页,用普通的浏览器、wireshark抓包只能抓得乱码数据,后来用Charles成功获得并分析请求参数,所以在此安利;