模块一：爬虫基础原理

1.HTTP基本原理

URL、URN和URI
Http和Https

52讲轻松搞定网络爬虫（笔记）
常见请求方法：GET和POST

请求头，常见信息：Host、Cookies、Referer、User-Agent、Content-Type等

请求体：一般承载内容为POST请求中的表单数据，因此对于GET请求，请求体为空

响应头，常见信息：Set-Cookie、Content-Type等
响应体，承载响应的正文数据，在检查-网络-预览中查看。

HTML：超文本标记语言（Hyper Text Markup Language）
CSS：层叠样式表（Cascading Style Sheets）
JavaScript
52讲轻松搞定网络爬虫（笔记）

DOM：文档对象模型（Document Object Model），又称DOM（节点）树，允许程序和脚本动态地访问和更新文档的内容、结构和样式。
52讲轻松搞定网络爬虫（笔记）
节点树与节点的关系

“.”代表class，“#”代表id……