最好的方式来刮WebDriver

问题描述：

嘿家伙。我已被分配到一个包含数码相机评论的网页。（例如，http://www.bhphotovideo.com/c/product/732047-REG/Canon_4460B003_EOS_60D_DSLR_Camera.html#costumerReview）。尽管JavaScript渲染审阅数据本身的难度很大，但Selenium和WebDriver在抓取数据方面非常有帮助。最好的方式来刮WebDriver

我最初的实现只是为了收集页面上的所有数据，然后使用Python的zip函数将其链接到相应的评论。但是，当人们无法填写评论的某些部分时，我的xpath查询不会填写人们可能期望的Nones，从而无法正确使用zip功能。

我的下一个想法是一次解析每个单独的评论 - 然而WebDriver似乎没有好的方法来访问子节点，并且使用来自评论根目录的xpath查询仍然会从整个页面抓取数据，而不仅仅是隔离树中的代码。

虽然我可以想出一些黑客解决方案，但没有一个看起来真的很合理，感觉应该有一种自然的方式来做到这一点，我错过了。如果有人在这方面有任何建议，将不胜感激。

这个问题似乎是题外话，因为堆栈溢出是关于与明确的答案编码的具体问题。有关高层设计概念的讨论更适合程序员.stackexchange.com。请阅读本文以获取更多信息：http://meta.stackexchange.com/questions/82988/choosing-between-stack-overflow-and-programmers-stack-exchange/82990#82990 – 2014-01-29 00:19:18

答

用Selenium得到那么网页源与lxml解析它，那么你可以得到每个人的审查和处理个案的基础上的情况下，缺少的领域。

答

尝试Scrapy

Scrapy不处理javascript – cerberos 2011-08-16 04:33:33

答

请尝试渲染服务：https://github.com/scrapinghub/splash

最好的方式来刮WebDriver

相关推荐