scrapy爬取百度贴吧回复数、作者、标题

scrapy爬取百度贴吧回复数、作者、标题

思路

百度贴吧里面的源码数据被注释了,将数据里面的注释进行替换,就可以使用xpath进行提取数据!
可以看出数据都被注释了scrapy爬取百度贴吧回复数、作者、标题

解决方法

将最原始获得的数据,用replace方法替换掉注释符
scrapy爬取百度贴吧回复数、作者、标题

再将替换的数据通过lxml库中的etree.HTML来解析这个网页的结构
scrapy爬取百度贴吧回复数、作者、标题
最后再通过xpath提取数据
图中的item是scrapy中的items文件中定义引用的,具体变量可以自己命名scrapy爬取百度贴吧回复数、作者、标题