爬虫看视频学习笔记

看视频学习笔记:https://www.bilibili.com/video/BV1Yh411o7Sz?p=4

介绍

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫合法还是违法?

1.在法律中不被禁止
2.具有违法风险
3.善意爬虫
4.恶意爬虫

爬虫带来的风险可以体现在如下2方面:

-爬虫干扰了被访问网站的正常运营
-爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢?

-时常的优化自己的程序,避免干扰被访问网站的正常运行
-在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私商业机密等敏感内容需要及时停止爬取或传播

爬虫看视频学习笔记

爬虫在使用场景中的分类

-通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。
-聚焦爬虫:是建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容。
-增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

robots.txt协议:

君子协议,防君子不防小人,规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
例如:www.xxxx.com/robots.txt