爬虫之Xpath的使用

什么是Xpath:

Xapth是一门在HTML文档、XML文档中查找信息的语言，可以用来在HTML/XML文档中对元素和属性进行遍历。

学习重点：

下面讲解一个使用Xpath简单的爬虫例子：

爬虫之Xpath的使用

在div标签上移动鼠标，看到蓝色区域覆盖的内容就在此标签内，我们要取的内容就在此标签里面。

爬虫之Xpath的使用

然后，逐层打开div标签，用同样的方式定位到我们要爬取的text、author 、tags

text_list=html.xpath('//span[@class="text"]/text()') 用text()获取文本内容

爬虫之Xpath的使用

author_list=html.xpath('//span/small[@class="author"]/text()') 获取作者

爬虫之Xpath的使用
tags_list=html.xpath('//div[@class="tags"]/meta/@content') 用@获取content属性

爬虫之Xpath的使用

注：确保已经导入requests、lxml 我用的是Anaconda3自带第三方库

在保存数据时先创建文件夹

爬虫之Xpath的使用

爬虫之Xpath的使用

爬虫之Xpath的使用

现在，我们可以去quotes文件夹看爬取的数据。

爬虫之Xpath的使用