学习笔记来源

1.爬虫的介绍

[学习]笔记]爬虫的学习（每天学习一点点）

自动从互联网获取所感兴趣的数据的一段程序。

[学习]笔记]爬虫的学习（每天学习一点点）

未来是信息为王的社会，要好好抓住这个末班车，听了这个价值，整个人都激动得不行。

这个网页可以将互联网相关网页的数据都爬取下来。
[学习]笔记]爬虫的学习（每天学习一点点）

[学习]笔记]爬虫的学习（每天学习一点点）

url管理器的目的防止循环抓取，重复抓取同样的url
[学习]笔记]爬虫的学习（每天学习一点点）

set可以剔除重复的内容，防止重复爬取；
is_crawled用来判断是否已经爬取
[学习]笔记]爬虫的学习（每天学习一点点）
大型公司使用缓存数据库，永久行保持使用关系型数据库，我们一般可以使用内存或者关系型数据库