网络爬虫的简单实现

网络爬虫工作原理

深度优先遍历策略(DFS即 Depth First Search)
深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路后方转入下一个起始页,继续跟踪链接
深度优先遍历的策略就是首先访问第一个邻接节点,然后再以这个被访问的邻接节点作为初始节点,访问它的第一个邻接节点,总结起来可以说:每次访问都在访问当前节点后首先访问当前节点的第一个邻接节点
这样的访问策略是优先往纵向挖掘深入,而不是对一个节点的所有邻接节点进行横向访问,具体算法表述如下:
访问初始节点v,并标记节点v为已访问
查找节点v的第个邻接节点w
若w存在,则继续执行4,否则算法结束
若w未被访问,对w进行深度优先遍历递归
查找节点v的w邻接节点的下一个邻接节点

广度优先遍历策略
将下在网页中发现的链接直接插入待抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页
算法:
访问初始节点v并标记节点v为已访问
节点v入队列
当队列非空时,继续执行,否则算法结束
出队列,取得队头节点
查找节点u的第一个邻接节点w
若节点u的邻接节点w不存在,则转至步骤3否则循环执行

实验目的和要求:

能使用jdk下载网页
能使用httpClient下载网页

网络爬虫的简单实现