Web Scraper爬虫

前置准备

chrome浏览器、Web Scraper-0.2.0.18

一、插件安装

打开chrome浏览器,地址栏内输入:chrome://extensions/,点击加载已解压的扩展程序,选择webscraper

Web Scraper爬虫

加载完成后,在页面鼠标右击选择检查(或F12),可以看到Web Scraper选项

Web Scraper爬虫

插件以及视频中sitemap下载地址:https://wwa.lanzous.com/b02b87nda,密码:5rjv

二、数据爬取

2.1 选取目标网址

这里我以bilibili为例进行演示,我将会爬取python关键字相关的信息。网址:https://search.bilibili.com/all?keyword=python&from_source=nav_suggest_new

进入开发者模式的Web Scraper选项栏中,准备开始爬取数据。

2.2 新建一个Sitemap

点击Create new sitemap,里面有两个选项:Import sitemap是指导入一个已有的sitemap,Create sitemap表示我们要新建一个sitemap。 这里大家可以用我已经测试好的来看下效果,也可以自己动手创建一个新的(爬其它数据),我给大家从新建开始演示。

Web Scraper爬虫

Sitemap name:给你要爬取的网页取个名字,需要使用英文字母,并且至少3个字符。比如我抓的是B站有关python的数据,那我就用bi-python-spider来命名。
Start URL:把需要爬取的网页链接复制到这里。

最后点击下方的Create Sitemap完成新建

Web Scraper爬虫

2.3 设置这个Sitemap

点击 Add new selector 创建一级Selector

Web Scraper爬虫
Web Scraper爬虫

设置好这个一级的Selector之后,点进去设置二级的Selector

Web Scraper爬虫

重复上面二级Selector的操作,直到选完你想爬的字段

Web Scraper爬虫

2.4 爬取数据

点击Scrape,设置好请求时间间隔和页面加载延迟(默认即可),然后点Start scraping,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。

Web Scraper爬虫
Web Scraper爬虫

由于我们只是爬取了第一页的数据,所以很快我们就可以看到结果

Web Scraper爬虫

2.5 数据导出

这里我们可以将爬取的数据以CSV格式导出,同样也可以将Sitemap导出供他人使用。

Web Scraper爬虫

三、其它

有些时候我们需要爬取的数据往往会有分页,比如我们上面有关python的检索结果https://search.bilibili.com/all?keyword=python&from_source=nav_suggest_new&page=2,这里第二页是通过路径一个page参数来进行传递。在Web Scraper 中提供了一种写法,可以设置页码范围及递增步长。格式: [开始值-结束值:步长],举几个例子来说明一下:

1、获取2-6页,步长为1的页面 :[2-6] 或者 [2-6:1]

2、获取2-6页,步长为2的页面:[2-6:2]

这里小编只是简单介绍总结了Web Scraper的插件的安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,它还能抓取分页、多页多元素的页面,还能抓取二级页面。需要大家自己慢慢摸索~~~