您的位置: 首页 > 文章 > Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

分类: 文章 • 2022-10-09 15:31:56

我们根据上一篇入门里的爬虫步骤来。
首先先明确我们需要的资源，这次用龙阅读做示例，网址为；
Python开发【爬虫】小说爬虫
然后我们分析数据加载流程，先获取目标网页的HTML接下来就会爬取目标网页的html，爬出来这样的东西就可以了
我们获取一下小说的名字（这里需要正则表达式，所以需导入re包）

出现了小说的名字就没有问题了
想要下载小说我们就需要一个文件来存放它，我们来建立一个文件
Python开发【爬虫】小说爬虫
这样写就很OK
接下来重点就要来了，我们要获取每个章节的内容了
我们先来分析一下网页的HTML，找到章节目录的那段代码
很显然，从

到之间的代码包含了所有的目录和链接，我们要把它们提取出来
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

此时应该会输出链接

Python开发【爬虫】小说爬虫

继续进行到第三步，下载数据。循环每个章节，分别下载
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

这时会输出章节的html
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

用正则表达式获取小说的章节名字和内容（分析网页html与上分析目录相同，此处不再多说）
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

此时会打印出章节题目和章节内容
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

我们会发现题目和内容中含有好多其他东西，此时我们需要把这些东西清除
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

清洗完之后，最后一步，把题目内容写入文件
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

这个带有自动下载的爬虫就完成了
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫

就是这么简单实用
完整代码也分享给大家
Python开发【爬虫】小说爬虫

Python开发【爬虫】小说爬虫