网络蜘蛛Spider的逻辑Logic（二）

1、关于规则识别的流程

1.1 自然语言描述

1)   输入规则
2)   判断规则是否有效
3)   分析规则内容
4)   输入目标
5)   使用规则解析目标内容
6)   生成目标实体
7)   判断实体是否有效
8)   有效则保存，否则丢弃
9)   判断是否解析完毕
10)   执行完毕退出，否则执行5）
11)   判断实体集是否有效
12)   有效则保存，否则执行13）
13)   结束

2、关于特定规则--图片采集规则的流程

2.1 自然语言描述

1)    输入图集的网址
2)    检查网址是否有效，包括是否http/https协议，是否目录
3)    获取网页内容，包括状态代码
4)    判断状态码是否有效，否则退出
5)    提取页面标题
6)    分析<img>标签，提取源地址和图片描述
7)    判断图片描述是否有效，否则使用5）处的标题代替
8)    对当前页面的图集去重
9)    判断是否有效，有效则保存
10)    提取页面超链接
11)    对超链接去重
12)    分析有效超链接并保存
13)    判断超链接集合是否为空，为空则退出
14)    逐个扫描超链接并记录，执行2）
15)    分析搜索的图集，下载和保存有效图集的信息

2.2 流程图描述

2.3 数据流图描述

注：这个数据流图还缺少活动或进程的处理的简化描述，仅作参考。

后记：

写作有助于记忆，帮助自我更好的理解自己的作品。在不断的“写作-修改-审视”中，可以从各个方面深入了解项目内容和意义，总结过往经验，积累原始知识，弥补不足，添砖加瓦，精益求精，从而酝酿出更好的作品。