八爪鱼爬取网页数据案例+图解

       近半个月来进行了一个乏味且没有任何技术含量的工作,就是大数据前期的数据爬去工作。今天就给大家简单例举一下八爪鱼试用版的使用,以便新人使用参考。

1.首先确认要爬取的网址,复制到下列输入框(这里说明一下,本人使用的是流程图模式,个人觉得流程图模式比较好上手,容易修改xpath)

八爪鱼爬取网页数据案例+图解

八爪鱼爬取网页数据案例+图解

八爪鱼爬取网页数据案例+图解

八爪鱼爬取网页数据案例+图解

2.以csdn官网的招聘为例,首先看一下列表内容(有用的内容包括:列表信息、详情信息、翻页)。接下来就围绕这几个内容项进行简单的爬取

(1)实现自动翻页

八爪鱼爬取网页数据案例+图解

(2)实现列表元素获取,这样就实现java中所谓的两层for循环,第一个for循环循环列表页的内容,第二个for循环循环页数,这样就实现了爬取每一页的列表信息

八爪鱼爬取网页数据案例+图解

八爪鱼爬取网页数据案例+图解

(3)打开流程图看一下具体流程

八爪鱼爬取网页数据案例+图解

(4)最后在提取数据时添加需要提取的项

八爪鱼爬取网页数据案例+图解

八爪鱼爬取网页数据案例+图解

(5)时间可以改时间格式

八爪鱼爬取网页数据案例+图解

(6)获取页面网址

八爪鱼爬取网页数据案例+图解

(7)点击此链接--》获取页面详情、html 

八爪鱼爬取网页数据案例+图解

(8)大概主要的就这集中,然后进行本地采集

八爪鱼爬取网页数据案例+图解