爬虫学习笔记
以下总结参考公众号:狗熊会
一、介绍
1、概念
2、爬虫的内容
(1)爬到的数据可能是:
- 表格
- 文本
- 图片+文本(二手车信息、京东网商品信息)
(2)哪些不可以被爬:
(3)eg:搜索引擎(baidu、google、bing)
- 百度是一个爬虫
- 百度爬不到新浪微博内部的新闻,也爬不到淘宝网的产品信息(涉及服务器的通行证问题)
3、通行证Robots.txt
服务器通过Robots.txt来限定爬虫可以爬哪些内容
淘宝网的爬虫通行证:禁止百度爬去产品信息,但是却允许google和bing
4、类别
(1)解析源代码
要熟悉html语言
(2)访问API
- eg:当一个app,需要微信登陆信息,就要通过微信设置的API访问
- 但通过API访问可能受到服务器次数限制等等的影响
(此图来自公众号:狗熊会)
通过API获取数据:
5、限制
- IP封禁
服务器可能禁止某个IP爬取数据,解决方法:找代理(桥接)服务器 - 验证码
12306的验证码常常连人都无法通过,就是为了防止黄牛的爬虫进行机器抢票 - 需要登陆,检验cookie
6、常用爬虫方案
- 第一条爬虫框架,如:scrapy
- 第三条:付费软件,国内:火车头、八爪鱼