【day4】python/爬虫基本原理讲解。

虫: 请求网站数据的自动化程序


网页浏览流程:
【day4】python/爬虫基本原理讲解。


Reques:包括
请求方式:主要有GET,POST两种请求类型。GET方式的请求信息在URL网址中,POST请求信息在FromData。
请求URL:统一资源定位服务。
请求头:包含请求时的头部信息。如User-Agent,Host,Cookies等信息。
请求体:请求额外携带的数据,如表单提交时的表单数据。

Response:包括
响应状态:404找不到页面,502服务器错误。
响应头:如内容类型,长度,服务器设置,设置Cookies等。
响应体:最主要内容,包括请求资源的内容,如HTML等。


解析方式:
1.直接处理
2.Json解析
3.正则表达式
4.BeautifulSoup
5.PyQuery
6.Xpath


JavaScript渲染问题:
1.分析Ajax请求
2.Selenium/WebDriver
3.Splash
4.PyV8,Ghost.py

数据存储:
1.直接存储
2.关系型数据库
3.非关系型数据库
4.二进制文件