52讲轻松搞定网络爬虫(笔记)

模块一:爬虫基础原理

1.HTTP基本原理

URL、URN和URI
Http和Https

请求

52讲轻松搞定网络爬虫(笔记)52讲轻松搞定网络爬虫(笔记)
常见请求方法:GET和POST
52讲轻松搞定网络爬虫(笔记)
请求头,常见信息:Host、Cookies、Referer、User-Agent、Content-Type等
52讲轻松搞定网络爬虫(笔记)
请求体:一般承载内容为POST请求中的表单数据,因此对于GET请求,请求体为空

响应

响应头,常见信息:Set-Cookie、Content-Type等
响应体,承载响应的正文数据,在检查-网络-预览中查看。

2.Web网页基础

网页的组成——HTML、CSS、JS

HTML:超文本标记语言(Hyper Text Markup Language)
CSS:层叠样式表(Cascading Style Sheets)
JavaScript
52讲轻松搞定网络爬虫(笔记)

节点树

DOM:文档对象模型(Document Object Model),又称DOM(节点)树,允许程序和脚本动态地访问和更新文档的内容、结构和样式。
52讲轻松搞定网络爬虫(笔记)
节点树与节点的关系
52讲轻松搞定网络爬虫(笔记)
52讲轻松搞定网络爬虫(笔记)

CSS选择器

“.”代表class,“#”代表id……

模块二:爬虫基本库的使用

模块三:多种形式的爬取方法

模块四:反爬虫的应对方法

模块五:App爬虫

模块六:智能化解析