Python开发【爬虫】小说爬虫

我们根据上一篇入门里的爬虫步骤来。
首先先明确我们需要的资源,这次用龙阅读做示例,网址为
Python开发【爬虫】小说爬虫
然后我们分析数据加载流程,先获取目标网页的HTMLPython开发【爬虫】小说爬虫接下来就会爬取目标网页的html,爬出来这样的东西就可以了
Python开发【爬虫】小说爬虫我们获取一下小说的名字(这里需要正则表达式,所以需导入re包)
Python开发【爬虫】小说爬虫Python开发【爬虫】小说爬虫
出现了小说的名字就没有问题了
想要下载小说我们就需要一个文件来存放它,我们来建立一个文件
Python开发【爬虫】小说爬虫
这样写就很OK
接下来重点就要来了,我们要获取每个章节的内容了
我们先来分析一下网页的HTML,找到章节目录的那段代码
Python开发【爬虫】小说爬虫很显然,从

之间的代码包含了所有的目录和链接,我们要把它们提取出来
Python开发【爬虫】小说爬虫此时应该会输出链接
Python开发【爬虫】小说爬虫继续进行到第三步,下载数据。循环每个章节,分别下载
Python开发【爬虫】小说爬虫这时会输出章节的html
Python开发【爬虫】小说爬虫用正则表达式获取小说的章节名字和内容(分析网页html与上分析目录相同,此处不再多说)
Python开发【爬虫】小说爬虫此时会打印出章节题目和章节内容
Python开发【爬虫】小说爬虫我们会发现题目和内容中含有好多其他东西,此时我们需要把这些东西清除
Python开发【爬虫】小说爬虫Python开发【爬虫】小说爬虫清洗完之后,最后一步,把题目内容写入文件
Python开发【爬虫】小说爬虫
这个带有自动下载的爬虫就完成了
Python开发【爬虫】小说爬虫Python开发【爬虫】小说爬虫就是这么简单实用
完整代码也分享给大家
Python开发【爬虫】小说爬虫