Python网络爬虫——周报2

Python网络爬虫——周报2

一、本周情况:

1.1 书籍学习

  • 第二部分: 高级数据采集
    • 数据清洗
    • 自然语言处理
    • 穿越网页表单与登录窗口进行采集
    • 采集javascript
    • 图像识别与文字处理
    • 避开采集陷阱
    • 用爬虫测试网站
    • 远程采集

二、笔记:



三、下周计划:

3.1、爬虫工程师起步(慕课网)

  • 开发环境搭建
  • 计算机网络协议基础
    • socket编程
    • TCP/IP
    • HTTP
  • 前端基础
    • html、css、JavaScript之间的关系
    • 浏览器加载过程
    • DOM树
    • ajax、json、xml
    • get、post、Content-type
  • 爬虫初体验
    • beautifulsoup
    • xpath
  • 项目实战:抓取****论坛数据

3.2、分布式爬虫实战(第二期)(小象学院)

  • 静态网页爬虫:爬虫的基础技术
  • 登录及动态网页抓取