post请求网站数据爬取!!!Python学习笔记!
对于刚开始学习Python的童鞋来说,对于网站的爬取可能很模糊,对网站的请求方式也不太了解。下面先简单介绍一下几种常见的网站请求方式,get和post。
GET:GET可以说是最常见的了,它本质就是发送一个请求来取得服务器上的某一资源。资源通过一组HTTP头和呈现数据(如HTML文本,或者图片或者视频等)返回给客户端。GET请求中,永远不会包含呈现数据。
POST:向服务器提交数据。这个方法用途广泛,几乎目前所有的提交操作都是靠这个完成。
此处,我就学习中对POST请求的理解做一下笔记:
首先,了解post请求和get请求的区别。1、GET发送请求时其数据大小有限制,理论上不能超过1k,而post则无此限制。2、GET请求时其发送的信息是以url明文发送的,其参数会被保存在浏览器历史或web服务器中,而post则不会。
其次,进行数据爬取。通过浏览器的开发者工具,可以看到网页的请求方式是get请求还是post请求。确定网页的请求方式后,开始寻找表单,也就是在开发者工具中的formData。里面的各种数据,就是我们在网页刷新是上传的数据。在Python爬取数据时,注意表单的建立和格式。
最后,取到数据后保存即可。
下面举个简单例子:
第一步,看网页请求类型。按键盘F12进入开发者工具,
找到Network模块下XHR,
刷新一下页面,找到Headers
Request Method对应的就是页面的请求方式,此处为post请求。
第二步,查看页面刷新时提交的链接和表单。
第三步,开始数据爬取。