网络蜘蛛Spider的逻辑Logic(二)

1、关于规则识别的流程

1.1 自然语言描述

1)    输入规则
2)    判断规则是否有效
3)    分析规则内容
4)    输入目标
5)    使用规则解析目标内容
6)    生成目标实体
7)    判断实体是否有效
8)    有效则保存,否则丢弃
9)    判断是否解析完毕
10)    执行完毕退出,否则执行5)
11)    判断实体集是否有效
12)    有效则保存,否则执行13)
13)    结束

2、关于特定规则--图片采集规则的流程

2.1 自然语言描述

1)    输入图集的网址
2)    检查网址是否有效,包括是否http/https协议,是否目录
3)    获取网页内容,包括状态代码
4)    判断状态码是否有效,否则退出
5)    提取页面标题
6)    分析<img>标签,提取源地址和图片描述
7)    判断图片描述是否有效,否则使用5)处的标题代替
8)    对当前页面的图集去重
9)    判断是否有效,有效则保存
10)    提取页面超链接
11)    对超链接去重
12)    分析有效超链接并保存
13)    判断超链接集合是否为空,为空则退出
14)    逐个扫描超链接并记录,执行2)
15)    分析搜索的图集,下载和保存有效图集的信息

2.2 流程图描述

网络蜘蛛Spider的逻辑Logic(二)
特定规则:图片采集规则流程图

2.3 数据流图描述

网络蜘蛛Spider的逻辑Logic(二)
特定规则:图片采集规则数据流图

注:这个数据流图还缺少活动或进程的处理的简化描述,仅作参考。

后记:

写作有助于记忆,帮助自我更好的理解自己的作品。在不断的“写作-修改-审视”中,可以从各个方面深入了解项目内容和意义,总结过往经验,积累原始知识,弥补不足,添砖加瓦,精益求精,从而酝酿出更好的作品。