您的位置: 首页 > 文章 > Python网络爬虫——周报2

Python网络爬虫——周报2

分类: 文章 • 2024-07-13 19:43:46

Python网络爬虫——周报2

一、本周情况：

1.1 书籍学习

第二部分：高级数据采集
- 数据清洗
- 自然语言处理
- 穿越网页表单与登录窗口进行采集
- 采集javascript
- 图像识别与文字处理
- 避开采集陷阱
- 用爬虫测试网站
- 远程采集

二、笔记：

本部分练习代码在我的github仓库：https://github.com/Alextaotao/Python-network-data-collection

三、下周计划：

3.1、爬虫工程师起步（慕课网）

开发环境搭建
计算机网络协议基础
- socket编程
- TCP/IP
- HTTP
前端基础
- html、css、JavaScript之间的关系
- 浏览器加载过程
- DOM树
- ajax、json、xml
- get、post、Content-type
爬虫初体验
- beautifulsoup
- xpath
项目实战：抓取****论坛数据

3.2、分布式爬虫实战（第二期）（小象学院）

静态网页爬虫：爬虫的基础技术
登录及动态网页抓取