Python开发【爬虫】小说爬虫
我们根据上一篇入门里的爬虫步骤来。
首先先明确我们需要的资源,这次用龙阅读做示例,网址为;
然后我们分析数据加载流程,先获取目标网页的HTML接下来就会爬取目标网页的html,爬出来这样的东西就可以了
我们获取一下小说的名字(这里需要正则表达式,所以需导入re包)
出现了小说的名字就没有问题了
想要下载小说我们就需要一个文件来存放它,我们来建立一个文件
这样写就很OK
接下来重点就要来了,我们要获取每个章节的内容了
我们先来分析一下网页的HTML,找到章节目录的那段代码
很显然,从
- 到
此时应该会输出链接
继续进行到第三步,下载数据。循环每个章节,分别下载
这时会输出章节的html
用正则表达式获取小说的章节名字和内容(分析网页html与上分析目录相同,此处不再多说)
此时会打印出章节题目和章节内容
我们会发现题目和内容中含有好多其他东西,此时我们需要把这些东西清除
清洗完之后,最后一步,把题目内容写入文件
这个带有自动下载的爬虫就完成了
就是这么简单实用
完整代码也分享给大家