【爬虫教程】吐血整理，最详细的爬虫入门教程~

初识爬虫

学习爬虫之前，我们首先得了解什么是爬虫。
来自于百度百科的解释：

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

通俗来讲，假如你需要互联网上的信息，如商品价格，图片视频资源等，但你又不想或者不能自己一个一个自己去打开网页收集，这时候你便写了一个程序，让程序按照你指定好的规则去互联网上收集信息，这便是爬虫，我们熟知的**百度，谷歌等搜索引擎背后其实也是一个巨大的爬虫。

爬虫合法吗？
可能很多小伙伴都会又这个疑问，首先爬虫是一门技术，技术应该是中立的，合不合法其实取决于你使用目的，是由爬虫背后的人来决定的，而不是爬虫来决定的。另外我们爬取信息的时候也可以稍微**‘克制’**一下，能拿到自己想要的信息就够了，没必要对着人家一直撸，看看我们的12306都被逼成啥样了????????????。
一般来说只要不影响人家网站的正常运转，也不是出于商业目的，人家一般也就只会封下的IP，账号之类的，不至于法律风险????。
其实大部分网站都会有一个robots协议，在网站的根目录下会有个robots.txt的文件，里面写明了网站里面哪些内容可以抓取，哪些不允许。
以淘宝为例——https://www.taobao.com/robots.txt

【爬虫教程】吐血整理，最详细的爬虫入门教程~

初识爬虫

相关推荐