Web-Crawler（爬虫基础）

爬虫基础

一. 什么是爬虫

网络爬虫（又被称为网络蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动的抓取互联网信息的程序，原则上，只要是浏览器（客户端）能做的事情，爬虫都能做。

二. 怎样获取到爬虫

下载其他公司开发的通用的爬虫（八爪鱼）

开发人员自己编写

三. 开发语言

其实只要能够发送HTTP（s）请求的任何编程语言都是可以做爬虫的，像C语言、C++、java、php、js等。

为什么一提到爬虫，一般都默认值python语言呢？因为：python编程语言简洁，有大量现成的模块供我们使用，因此虽然Java也能做爬虫，但是他们写100行代码时，我们用python写10行就ok了，所以做爬虫还是python香。。。真香。。

四. 爬虫的分类
根据被爬网站的数量的不同，我们把爬虫分为：

通用爬虫：通常指搜索引擎的爬虫，例如百度https://www.baidu.com
聚焦爬虫：针对特定网站的爬虫

也就是说，我们要做的是聚焦爬虫（也叫做定向爬虫）

爬虫流程

一. 聚焦爬虫流程

向起始url发送请求，并获取响应
对响应进行提取
如果提取url，则继续发送请求获取响应
如果提取数据，则将数据进行保存

Web-Crawler（爬虫基础）

爬虫基础

爬虫流程

相关推荐