爬虫利器之Chrome检查功能巧用
听君一席话,胜读十本书。抓紧机会,跟大神学爬虫。
主要是python爬虫也最近几年比较火热,像样的书籍教程就没几本,更别提经典大作了。
Chrome检查功能
右击鼠标,chrome浏览器是有检查这个功能的,特别指出是chrome。
点了检查之后,右边就是这么个界面了。这里面有很多东西,elements,Console,Source,Network,Performance以及Memory和Application信息。如果大神不告诉你,只是这个页面就够看半天也看不出个所以然。
Network功能简介
还好,我替你问了大神了。只要看Network就好了。
network下面的这个功能其实就是一个网络监视器,它录制了你在网页上的每一步操作。
下图的第一个小红点,颜色是红色的,表示正在录制;点一下变成黑色,就什么都不会记录。
第二个图标,clear的意思,点击可以清空下面的记录。
演示network请求录制功能
比如随便点击网页上的任何内容,在这里我们打个勾,筛选停业及问题平台。
然后观察右侧网页录制器变化:
接下来看看front_select-plat里都有哪些内容
front_select-plat的headers信息
一共有四个部分,general,response headers, request headers, form data
request 是请求,这是爬虫要重点关注的,因为要模拟请求嘛
headers 也是重点关注,理由同上
form data 是参数出现的地方,重点关注
general里的有用信息
Request URL 请求的url
Request Method 请求使用的方法,此处是post方法
Request Headers里的有用信息
view parsed这个是可以点的,点了可以解析可以查看源
User-Agent是用户代理,这些信息都是要写近请求头中的
Form Data里的有用信息
params,sort,currPage都是模拟请求需要用到的参数
点点view source,view URL encoded会看到神奇的事情
点了view source就会看到菜鸟级爬虫会使用的URL,这个与上面这个form data是本质是一样的。
front_select-plat的Preview信息
当前页的所有有用的数据都在这里了,是一个list
totalPage 表示一共有118页
pageSize 表示每页有25条数据
maxElements 表示一共有2946条数据
具体的看看list长得什么样子,全是白花花的数据~
点击查看其中一条的明细。如下所示:
长按下方图片,识别图中二维码,关注:“数据分析师手记”微信公众号
与三月桑一起修炼数据分析