最好的方式来刮WebDriver

最好的方式来刮WebDriver

问题描述:

嘿家伙。我已被分配到一个包含数码相机评论的网页。 (例如,http://www.bhphotovideo.com/c/product/732047-REG/Canon_4460B003_EOS_60D_DSLR_Camera.html#costumerReview)。尽管JavaScript渲染审阅数据本身的难度很大,但Selenium和WebDriver在抓取数据方面非常有帮助。最好的方式来刮WebDriver

我最初的实现只是为了收集页面上的所有数据,然后使用Python的zip函数将其链接到相应的评论。但是,当人们无法填写评论的某些部分时,我的xpath查询不会填写人们可能期望的Nones,从而无法正确使用zip功能。

我的下一个想法是一次解析每个单独的评论 - 然而WebDriver似乎没有好的方法来访问子节点,并且使用来自评论根目录的xpath查询仍然会从整个页面抓取数据,而不仅仅是隔离树中的代码。

虽然我可以想出一些黑客解决方案,但没有一个看起来真的很合理,感觉应该有一种自然的方式来做到这一点,我错过了。如果有人在这方面有任何建议,将不胜感激。

+0

这个问题似乎是题外话,因为堆栈溢出是关于与明确的答案编码的具体问题。有关高层设计概念的讨论更适合程序员.stackexchange.com。请阅读本文以获取更多信息:http://meta.stackexchange.com/questions/82988/choosing-between-stack-overflow-and-programmers-stack-exchange/82990#82990 – 2014-01-29 00:19:18

用Selenium得到那么网页源与lxml解析它,那么你可以得到每个人的审查和处理个案的基础上的情况下,缺少的领域。

尝试Scrapy

+0

Scrapy不处理javascript – cerberos 2011-08-16 04:33:33

请尝试渲染服务:https://github.com/scrapinghub/splash