52讲轻松搞定网络爬虫(笔记)
52讲轻松搞定网络爬虫
模块一:爬虫基础原理
1.HTTP基本原理
URL、URN和URI
Http和Https
请求
常见请求方法:GET和POST
请求头,常见信息:Host、Cookies、Referer、User-Agent、Content-Type等
请求体:一般承载内容为POST请求中的表单数据,因此对于GET请求,请求体为空
响应
响应头,常见信息:Set-Cookie、Content-Type等
响应体,承载响应的正文数据,在检查-网络-预览中查看。
2.Web网页基础
网页的组成——HTML、CSS、JS
HTML:超文本标记语言(Hyper Text Markup Language)
CSS:层叠样式表(Cascading Style Sheets)
JavaScript
节点树
DOM:文档对象模型(Document Object Model),又称DOM(节点)树,允许程序和脚本动态地访问和更新文档的内容、结构和样式。
节点树与节点的关系
CSS选择器
“.”代表class,“#”代表id……