Python网络爬虫——周报2
一、本周情况:
1.1 书籍学习
-
第二部分: 高级数据采集
- 数据清洗
- 自然语言处理
- 穿越网页表单与登录窗口进行采集
- 采集javascript
- 图像识别与文字处理
- 避开采集陷阱
- 用爬虫测试网站
- 远程采集
二、笔记:
- 本部分练习代码在我的github仓库:https://github.com/Alextaotao/Python-network-data-collection
三、下周计划:
3.1、爬虫工程师起步(慕课网)
- 开发环境搭建
-
计算机网络协议基础
- socket编程
- TCP/IP
- HTTP
-
前端基础
- html、css、JavaScript之间的关系
- 浏览器加载过程
- DOM树
- ajax、json、xml
- get、post、Content-type
-
爬虫初体验
- beautifulsoup
- xpath
- 项目实战:抓取****论坛数据
3.2、分布式爬虫实战(第二期)(小象学院)
- 静态网页爬虫:爬虫的基础技术
- 登录及动态网页抓取