scrapy关于tbody标签的问题
今天在爬取网页时,当爬取表格(table) 的内容时,发现用 xpath helper 获取正常,程序却解析不到。
原因是:浏览器会在table标签下添加tbody
在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化
下图这个是xpath heper 获取的
下图是源码查看到的
对比发现,审查元素中多了tbody标签
解决方法:
使用scrapy时将分析出的xpath中的tbody去掉
今天在爬取网页时,当爬取表格(table) 的内容时,发现用 xpath helper 获取正常,程序却解析不到。
原因是:浏览器会在table标签下添加tbody
在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化
下图这个是xpath heper 获取的
下图是源码查看到的
对比发现,审查元素中多了tbody标签
解决方法:
使用scrapy时将分析出的xpath中的tbody去掉