您的位置: 首页 > 文章 > scrapy爬取百度贴吧回复数、作者、标题 scrapy爬取百度贴吧回复数、作者、标题 分类: 文章 • 2025-04-06 11:20:10 scrapy爬取百度贴吧回复数、作者、标题 思路 解决方法 思路 百度贴吧里面的源码数据被注释了,将数据里面的注释进行替换,就可以使用xpath进行提取数据! 可以看出数据都被注释了 解决方法 将最原始获得的数据,用replace方法替换掉注释符 再将替换的数据通过lxml库中的etree.HTML来解析这个网页的结构 最后再通过xpath提取数据 图中的item是scrapy中的items文件中定义引用的,具体变量可以自己命名