爬虫学习笔记


以下总结参考公众号:狗熊会

一、介绍

1、概念

爬虫学习笔记

2、爬虫的内容

(1)爬到的数据可能是:

  • 表格
  • 文本
  • 图片+文本(二手车信息、京东网商品信息)

(2)哪些不可以被爬:
爬虫学习笔记

(3)eg:搜索引擎(baidu、google、bing)

  • 百度是一个爬虫
  • 百度爬不到新浪微博内部的新闻,也爬不到淘宝网的产品信息(涉及服务器的通行证问题)
    爬虫学习笔记

3、通行证Robots.txt

服务器通过Robots.txt来限定爬虫可以爬哪些内容
淘宝网的爬虫通行证:禁止百度爬去产品信息,但是却允许google和bing
爬虫学习笔记

4、类别

(1)解析源代码
要熟悉html语言

(2)访问API

  • eg:当一个app,需要微信登陆信息,就要通过微信设置的API访问
  • 但通过API访问可能受到服务器次数限制等等的影响

爬虫学习笔记
(此图来自公众号:狗熊会)
通过API获取数据:
爬虫学习笔记

5、限制

  • IP封禁
    服务器可能禁止某个IP爬取数据,解决方法:找代理(桥接)服务器
  • 验证码
    12306的验证码常常连人都无法通过,就是为了防止黄牛的爬虫进行机器抢票
  • 需要登陆,检验cookie

6、常用爬虫方案

爬虫学习笔记

  • 第一条爬虫框架,如:scrapy
  • 第三条:付费软件,国内:火车头、八爪鱼