python0705课程笔记

A. 层级


B. 深度和广度优先(爬虫)
深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续追踪链接,通过下图进行理解:
python0705课程笔记

abdeicfgh

    


广度优先,有人也叫宽度优先,是指将新下载网页发现的链接直接插入到待抓取URL队列的末尾,也就是指网络爬虫会先抓取起始页中的所有网页,然后在选择其中的一个连接网页,继续抓取在此网页中链接的所有网页,通过下图进行理解:

python0705课程笔记
abcdefghi


C. selenium模块
控制浏览器进行点点的模块(必须下载驱动  )
1. 控制浏览器打开指定页面
2. 找到登陆按钮
3. 点击按钮
4. 找到手机标签
5. 找到密码标签
6. 输入用户名
7. 输入密码
8. 点击登陆按钮


D. 图像处理(pil)
1. 点击按钮,得到没有缺口的图片
2. 获取没有缺口的图片
3. 点击滑动按钮,得到有缺口的照片
4. 获取有缺口的照片
5. 对比两张照片,找出位移
6. 模拟人,根据位移的得到行为轨迹
7. 按照行动轨迹正向滑动,后反滑动