02_爬虫入门级教程_如何解析数据?
一.概述
爬虫分两步走,首先要对你想要获取数据的目标网址进行解析,明确所要获取的数据,以及目标网页的结构,其次,在进行数据的爬取。
上一节,大家了解到了什么是网络爬虫和爬虫的一些基本知识。那么这一章就以爬取猫眼电影 Top 100 为实例,先教大家如何解析网页。
二.解析网页
1.打开网页
猫眼电源top10网页
页面如下:
2.审查元素
右键检查元素,我这里以火狐浏览器为例
就会出现下列源代码
那这有什么作用呢??
我们爬取数据,首先得分析网页的结构,这就要根据源代码来。图中箭头指向的是一个选择器,点击他然后在网页中查看你想要的地方就回跳出响应的源代码。
3.明确元素
在此次网页中我们要明确趴取得元素:排名、封面图片、影片名、主演、上映时间、评分
每一部电影信息都在
4.查看所需爬取元素所在位置
以上我们便完成了对爬取元素的分析,在下面我们开始准备爬取工作