scrapy爬虫获得网页源码另存,再尝试浏览器定位符合预期,但调试脚本中定位远少于前者
scrapy爬虫调试得到结果如下:
此时,再将response获得源代码另存,用edge打开,显示如下:
使用控制台验证定位的xpath路径表达式如下:
仔细观察,爬取同一网页的结果,发现只含有网页显示的table元素的子元素tr,且此tr的子元素首个td节点不同的首个符合要求的tr元素节点,现象如下:
这样四个tr元素节点的内容,被正常爬取,爬取时打印信息如下:
完全忽略网页中其他tr元素节点内容,对于此种情况,怀疑是这几个元素节点的html源代码与其他不一样,经查源代码也与其他元素节点一模一样,这里不禁纳闷,到底是什么地方造成如此怪异的现象,目前暂未分析成功。
望各位大佬能指点一二,不胜感激!