八爪鱼数据平台

前几天淘宝数据爬不下来,购买使用了几天八爪鱼,现在总结一下。

1.有点贵哦,而且数据爬的很慢

2.固定模板不支持编辑,想自定义爬数据需要自己新建模板,指定循环,翻页等一系列规则,很麻烦。官网有教程,需要慢慢了解

3.点击按钮请求时需要勾选ajax,创建循环需要选择循环类型,设置翻页时候需要设置退出翻页的条件即第几页结束。

八爪鱼爬虫使用总结

  • 下载安装八爪鱼

在浏览器搜索八爪鱼,在官方网站下载安装,官方下载地址https://www.bazhuayu.com/download

  • 登录

输入账号密码登录

  • 操作教程

八爪鱼首页,点击教程,点击更多。

新手入门和八爪鱼8节课这两个是必要掌握的课程。如需其他操作,可以查看相关教程。

  • 采集天猫数据:使用已创建好的任务
  1. 点击左上角我的任务按钮
  2. 选择一个你要执行任务
  3. 点击这个任务名
  4. 点击右上角的流程按钮查看具体流程,因为阿里系的网站有反爬机制,拿数据必须经过登录。
  5. 扫码登录的,点击本地采集,用自己手机的淘宝扫码二维码【请在30秒内完成】,截图如下A【推荐使用扫码采集】,扫码爬取数据被反爬的频率低,采集更方便
  6. 账号密码登录的,请在查看流程的时候,把程序里的淘宝账号和密码换成你自己的,否则短信验证或者图片验证的时候会比较尴尬,截图如下B
  7. 点击开始采集,选择本地采集,然后在电脑前等待采集,期间有滑动验证码或者短信验证码需要人工进行验证
  1. 附截账号密码采集截图,请按序号点击:
  1. 点击右上角的流程
  2. 点击输入文字
  3. 输入自己淘宝手机号
  4. 点击确定
  5. 点击保存
  6. 开始采集
  7. 八爪鱼数据平台
  8. 八爪鱼数据平台

 

 

7.等采集完成,点击导出数据,将数据导出就可以了。

  1. 附扫码采集截图,按顺序:
  1. 点击开始采集
  2. 点击本地
  3. 八爪鱼数据平台

 

  1. 使用手机上的淘宝APP进行扫码,然后等待采集,等验证码出现的时候进行验证
  2. 八爪鱼数据平台
  3. 八爪鱼数据平台

 

 

  1. 等采集完成,点击导出数据,将数据导出就可以了。
  • 清理缓存

由于阿里巴巴的网站监测反爬虫机制比较强大,需要定期清理缓存和切换浏览器版本降低被监测的几率。

清理八爪鱼缓存(清理之前将未导出的数据导出):

显示隐藏的文件夹:【最新8版本】C:\Users\(用户名)\AppData\Local\OctopusSoftV8
把OctopusSoft(或OctopusSoftV8)整个文件夹删掉
注意:删除缓存会导致本地采集的数据全部清空,如果本地采集有重要数据先导出再清理缓存,无法恢复,云采集数据和已编辑好的任务不受影响。

切换浏览器版本:

在开始采集之前,开始采集按钮旁边有个设置按钮,点击设置,选择一个新的浏览器版本,点击保存,保存成功后就可以开始采集了。

八爪鱼数据平台

八爪鱼数据平台

 

 

  • 注意事项

爬数据的时候最好用操作人的淘宝账号,因为阿里会检测账号登录是不是使用常用设备、常用地址。检测之后反爬会频繁影响爬取数据。