scrapy+mysql实现小说连载更新

平常看小说总是有更新,网站上百度到的都是增量式爬虫,用scrapy-redis,可是我是mysql啊(我能怎么办,我也很绝望....),于是就搞搞搞,搞了个用mysql+scrapy实现的连载更新

首先,在用这个连载之前,mysql数据库里必须有一些小说的信息,比如上次小说A的最新章节,上次小说A的章节数量,小说A的来源网址(来源目录)

接来下说正题:

一,因为用到了Mysql,所以要关联mysql,请看我的目录结构

scrapy+mysql实现小说连载更新

新建了个model,里面是数据库操作

scrapy+mysql实现小说连载更新

二、接下来是爬虫逻辑

scrapy+mysql实现小说连载更新

这里因为从mysql中的来源连接是一个list,但是你不能把这个list直接给scrapy里的start_urls,所以在这里进行了转换也就是第一个for,接着使用回调parse,这里注意一定是parse(忘记之前是看哪位仁兄的,如果看到,请告诉我,我补上连接)

 

接下来,写了个查询数据库的逻辑,是因为,之后在判断中需要用到,这样可以防止不符合条件的书籍爬取下来

scrapy+mysql实现小说连载更新

 

接下来,做的是对网站的某一本小说的目录进行爬取,获取最新的网页链接scrapy+mysql实现小说连载更新

现在,就需要对数据进行判断了,看看需要爬取的小说是不是更新了,是不是该爬了

scrapy+mysql实现小说连载更新

 

 

这里写了个scrapy+mysql实现连载小说更新的大!致!逻!辑!大!致!逻!辑!大!致!逻!辑!(重要的事,说三遍)

 

因为某些原因,不能把代码开源,所以看看逻辑怎么实现就好

各位大佬不喜勿喷,小弟在此跪谢!OTZ