Web Scraper爬虫

前置准备

chrome浏览器、Web Scraper-0.2.0.18

一、插件安装

打开chrome浏览器，地址栏内输入：chrome://extensions/，点击加载已解压的扩展程序，选择webscraper

加载完成后，在页面鼠标右击选择检查(或F12)，可以看到Web Scraper选项

插件以及视频中sitemap下载地址：https://wwa.lanzous.com/b02b87nda，密码:5rjv

二、数据爬取

2.1 选取目标网址

这里我以bilibili为例进行演示，我将会爬取python关键字相关的信息。网址：https://search.bilibili.com/all?keyword=python&from_source=nav_suggest_new

进入开发者模式的Web Scraper选项栏中，准备开始爬取数据。

2.2 新建一个Sitemap

点击Create new sitemap，里面有两个选项：Import sitemap是指导入一个已有的sitemap，Create sitemap表示我们要新建一个sitemap。这里大家可以用我已经测试好的来看下效果，也可以自己动手创建一个新的（爬其它数据），我给大家从新建开始演示。

Sitemap name：给你要爬取的网页取个名字，需要使用英文字母，并且至少3个字符。比如我抓的是B站有关python的数据，那我就用bi-python-spider来命名。
Start URL：把需要爬取的网页链接复制到这里。

最后点击下方的Create Sitemap完成新建

2.3 设置这个Sitemap

点击 Add new selector 创建一级Selector

设置好这个一级的Selector之后，点进去设置二级的Selector

重复上面二级Selector的操作，直到选完你想爬的字段

2.4 爬取数据

点击Scrape，设置好请求时间间隔和页面加载延迟（默认即可），然后点Start scraping，弹出一个小窗后爬虫就会开始工作。你会得到一个列表，上面有你想要的所有数据。

由于我们只是爬取了第一页的数据，所以很快我们就可以看到结果

2.5 数据导出

这里我们可以将爬取的数据以CSV格式导出，同样也可以将Sitemap导出供他人使用。

三、其它

有些时候我们需要爬取的数据往往会有分页，比如我们上面有关python的检索结果https://search.bilibili.com/all?keyword=python&from_source=nav_suggest_new&page=2，这里第二页是通过路径一个page参数来进行传递。在Web Scraper 中提供了一种写法，可以设置页码范围及递增步长。格式： [开始值-结束值:步长]，举几个例子来说明一下：

1、获取2-6页，步长为1的页面：[2-6] 或者 [2-6:1]

2、获取2-6页，步长为2的页面：[2-6:2]

这里小编只是简单介绍总结了Web Scraper的插件的安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此，它还能抓取分页、多页多元素的页面，还能抓取二级页面。需要大家自己慢慢摸索~~~