python爬虫从学习 1--什么是爬虫

本课程是从GitHub中文榜学习整理的详情可以点击这里

当我们在我们的浏览器输入我们熟悉的www.baidu.com,一回车就看到我们的网页,ctrl+u我们就可以看到网页密密麻麻的代码。
python爬虫从学习 1--什么是爬虫
而爬虫就相当于一个自动化程序将网站的数据给搜索下来,比如我们想知道中国最好的大学的排名以及某一个行业未来的发展趋势。

如何使用爬虫呢

首先爬虫需要模拟一个请求,就像我们输入浏览器的地址回车
爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)大多数的服务器呢,会以为是浏览器发送请求,就直接返回数据给爬虫了,这时候服务器就将数据反馈给我们。有一些公司则会有反爬虫的方法避免数据被爬取