您的位置: 首页 > 文章 > 爬虫学习笔记

爬虫学习笔记

分类: 文章 • 2025-01-16 11:49:40

爬虫学习笔记

一、介绍

1、概念
2、爬虫的内容
3、通行证Robots.txt
4、类别
5、限制
6、常用爬虫方案

以下总结参考公众号：狗熊会

一、介绍

1、概念

爬虫学习笔记

2、爬虫的内容

（1）爬到的数据可能是：

表格
文本
图片+文本（二手车信息、京东网商品信息）

（2）哪些不可以被爬：
爬虫学习笔记

（3）eg:搜索引擎（baidu、google、bing）

百度是一个爬虫
百度爬不到新浪微博内部的新闻，也爬不到淘宝网的产品信息（涉及服务器的通行证问题）

3、通行证Robots.txt

服务器通过Robots.txt来限定爬虫可以爬哪些内容
淘宝网的爬虫通行证：禁止百度爬去产品信息，但是却允许google和bing
爬虫学习笔记

4、类别

（1）解析源代码
要熟悉html语言

（2）访问API

eg：当一个app，需要微信登陆信息，就要通过微信设置的API访问
但通过API访问可能受到服务器次数限制等等的影响

爬虫学习笔记
（此图来自公众号：狗熊会）
通过API获取数据：

5、限制

IP封禁
服务器可能禁止某个IP爬取数据，解决方法：找代理（桥接）服务器
验证码
12306的验证码常常连人都无法通过，就是为了防止黄牛的爬虫进行机器抢票
需要登陆，检验cookie

6、常用爬虫方案

爬虫学习笔记

第一条爬虫框架，如：scrapy
第三条：付费软件，国内：火车头、八爪鱼