爬虫基础

    写爬虫前我们要了解一些基本的原理:HTTP原理、网页的基本知识、爬虫的基本原理、Cookies的基本原理等。

HTTP原理:
一:HTTP工作流程
1.客户端与服务端相互交流的过程。通过点击客户机上的超级链接,HTTP的使命开始,接下来进行TCP的三次握手。
2.建立好了链接,客户几发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号、MIME信息(包括请求修饰符、客户机信息和可能的内容)。
#GitHub的网站图标链接就是一个URL
3.服务器接到请求后,给予相应的响应信息,其格式为:一个状态行(包括信息的协议版本号)、一个成功或错误的代码、后面的是MIME信息(包括服务器信息、实体信息、可能的内容)。
4.客户端接收到服务器所返回的信息,通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。客户端收到服务器信息后,向服务器发送一个确认包,此包发送完毕,表示完成三次握手。
。。。。。。
写到这忽然发现重点偏了,好吧,直接上鲜货吧!
我们平常在浏览器中看到过的网页其实就是超文本(hypertext)解析而成的,其网页源代码是一系列HTML代码,里面包含一系列标签
爬虫基础
当我们查看网页的时候我们可能会注意到,URL的开头会有http或https,这就是访问资源所需要的协议类型。
HTTP中文名就是叫做超文本传输协议,HTTP协议是用于从网络传输超文本数据到本地浏览器的传输协议,它能高效而准确地传送超文本文档。
HTTPS是以安全为目标的HTTP通道,在HTTP下加入SSL层,简称HTTPS
请求:
由客户端发出,分为四个部分:请求方法、请求网址、请求头、请求体
1.请求的方法有:GET和POST
GET:请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输
GET请求提交的数据最多只有1024个字节,而POST方式没有限制

这次的博客就写到这了,第一次写关于技术的文章,思绪有点乱,但会坚持下去,会好起来的。