java爬虫实战——动态获取网站数据

#1024程序员节#

通过java实现爬虫动态获取网站数据

       通过上次demo的实现，是我对于爬虫有了一定的了解与认识，并进行了深入的研究与学习，成功的动态获取https://saudi.souq.com/中更多的数据。
       上次demo之后，我发现每次通过商品列表获取到的数据有限，只有那么几个，我就在想如何可以实现自动点击商品，进入到商品详情页面，获取更多数据，然后再返回商品列表页面。这样形成一个循环，用来获取跟多的数据。经过思考与尝试，终于实现此功能。

1.创建maven项目
       首先还是先创建一个maven项目。
java爬虫实战——动态获取网站数据
2.引入相关jar包
       因为工作原因，还没来得及实现将数据导出为excel文件，所以还是只有控制台输出。引入jar包如下。

3.代码编写
       在此次代码中加入了自动跳转进入商品详情页，获取数据之后再返回商品列表页，并进行循环获取。
       代码中最外层for循环的作用是实现翻页操作，当第一页商品的数据获取结束之后，跳转到第二页商品列表页，继续循环获取商品详细数据。
java爬虫实战——动态获取网站数据
4.运行结果
       成功获取到多页商品的详细数据，结果如图。因为我使用的是国外购物网站，所以获取到的数据不是中文。

总结：

通过这次实战，使我对于爬虫有了更深的了解，并且掌握了动态获取数据的方式。美中不足的是暂时没有时间实现将数据导出为excel文件，我会在后面抽时间实现这个自己的这个想法，以及将外文数据转换为中文，这都是需要我继续学习与尝试的地方，使自己逐渐成长。

java爬虫实战——动态获取网站数据

通过java实现爬虫动态获取网站数据

总结：

相关推荐