[学习]笔记]爬虫的学习(每天学习一点点)
学习笔记来源
https://www.imooc.com/video/10675
1.爬虫的介绍
自动从互联网获取所感兴趣的数据的一段程序。
2.爬虫技术的价值
未来是信息为王的社会,要好好抓住这个末班车,听了这个价值,整个人都激动得不行。
3.爬虫技术的架构
这个网页可以将互联网相关网页的数据都爬取下来。
爬虫调度端:
启动爬虫,停止爬虫,监视爬虫运行情况URL管理器:
对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”网页下载器:
将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”网页解析器:
解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”
4.爬虫技术的架构
https://www.imooc.com/video/10678
5.URL管理器功能
url管理器的目的防止循环抓取,重复抓取同样的url
6.URL管理器的实现方式
set可以剔除重复的内容,防止重复爬取;
is_crawled用来判断是否已经爬取
大型公司使用缓存数据库,永久行保持使用关系型数据库,我们一般可以使用内存或者关系型数据库