爬虫基础

爬虫的基本原理：
可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。互联网上的WEB页面可以抽象化为一张有向图。图的遍历就是用来解决节点的访问顺序问题。图的遍历算法有两种，即深度优先算法DFS和宽度优先算法BFS。
爬虫的概念：
网络爬虫(Spider)是一种程序，它的主要目的是将互联网上的网页下载到本地并提取出相关数据。网络爬虫可以自动化的浏览网络中的信息，然后根据我们制定的规则下载和提取信息。网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝线爬行，下载每一个URL所指向的网页，分析页面内容。
危害：
性能骚扰：
Web服务器默认接收人类访问，而受限于编写水平和目的，网络爬虫将会为 Web服务器带来巨大的资源开销。
法律风险：
服务器上的数据有产权归属，而网络爬虫获取数据后牟利将带来法律风险。隐私泄露：
网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私
爬虫基础

爬虫的应用
爬虫基础

动态网页与静态网页
爬虫基础

robots协议的定义及如何查看某个网站的bobots协议
robots.txt是一个存放在网站根目录下的ASCII编码的文本文件。爬虫在爬网站之前，需要首先访问并获取这个robots.txt文件的内容，这个文件里面的内容会告诉爬虫哪些数据是可以爬取的，哪些数据是不可以爬取的。  要查看一个网站的robots.txt，只需要访问“网站域名。
urlib库中的robotparser模块提供了一个类RobotFileParser解析网站的robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页。

相关推荐