selenium+phantomjs爬取京东商品信息

今天自己实战写了个爬取京东商品信息，和上一篇的思路一样，附上链接：https://www.cnblogs.com/cany/p/10897618.html

打开 https://www.jd.com/ 首先不需要登陆就可搜索，淘宝不一样，所以淘宝我还没试过。

开启F12 定位一下搜索框和搜索按钮

接下来我们要的是按销量排名，那就要点击这个 onclick事件

selenium+phantomjs爬取京东商品信息

发现使用click()还是无法进行点击，因为这是个js跳转所以得用下面代码

submit_js = WAIT.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="J_filter"]/div[1]/div[1]/a[2]')))

browser.execute_script("$(arguments[0]).click()", submit_js)

接下来就还是检测是否加载了下面的元素

selenium+phantomjs爬取京东商品信息

开始分析各项怎么获取里面的数据就不说了

selenium+phantomjs爬取京东商品信息

这时候可能爬的不完全，因为京东是动态加载的需要去模拟一下把页面拉到底部

browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")

按照这样子进行循环遍历，把每一个值添加到goods_data列表里去，但也保证不了可能会出现找不到对象的属性，抛出AttributeError异常，这里已经尝试过了，所以写下这个异常处理！

然后获取完一页就下一页，然后得写个代码来检查是否跳转到指定页面

WAIT.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#J_bottomPage > span.p-num > a.curr'),str(page_num)))

再获取每一页当前页面源码进行解析提取内容，保存到 goods_data 列表中，最后写入xls文件！

Tips：里面sleep 时间视情况而定，太快会导致获取不全，但如果网速快能弥补这一点，目前测试情况来看是这样子的问题！

附上代码：

selenium+phantomjs爬取京东商品信息