您的位置: 首页 > 文章 > Python自动化（八）使用Scrapy shell提取网页信息

Python自动化（八）使用Scrapy shell提取网页信息

分类: 文章 • 2025-01-19 11:36:52

使用Scrapy shell提取网页信息

使用Scrapy shell提取网页信息

说明

本文假设您已经成功安装Scrapy。

使用scrapy shell获得网页内容

在终端中执行如下命令：
scrapy shell -s USER_AGENT="Mozilla/5.0" "https://www.qiushibaike.com"
如果顺利的话，将看到下图所示的界面：
Python自动化（八）使用Scrapy shell提取网页信息

关于request和response

request对象中存放的是向服务器发送的请求信息；
response对象中存放的是从服务器获得的所有响应信息。

关于response.body

response.body是从服务器获得的内容。

提取response.body中指定的数据

这里，我们以提取网页中的主题内容为例，首先我们找到内容对应的xpath路径，如下图：
Python自动化（八）使用Scrapy shell提取网页信息

然后，我们通过response.xpath()方法提取所有内容，如下图：
Python自动化（八）使用Scrapy shell提取网页信息

从图中的结果可以看到，我们提取的内容中包含HTML标签，我们可以通过二次xpath优化一下，去掉多余的HTML标签，如下图：

Python自动化（八）使用Scrapy shell提取网页信息

接下来，我们可以在修改一下，把提取的信息保存到文件中，如下图所示：
Python自动化（八）使用Scrapy shell提取网页信息