爬虫基础

    写爬虫前我们要了解一些基本的原理：HTTP原理、网页的基本知识、爬虫的基本原理、Cookies的基本原理等。

HTTP原理：
一：HTTP工作流程
1.客户端与服务端相互交流的过程。通过点击客户机上的超级链接，HTTP的使命开始，接下来进行TCP的三次握手。
2.建立好了链接，客户几发送一个请求给服务器，请求方式的格式为：统一资源标识符（URL）、协议版本号、MIME信息（包括请求修饰符、客户机信息和可能的内容）。
#GitHub的网站图标链接就是一个URL
3.服务器接到请求后，给予相应的响应信息，其格式为：一个状态行（包括信息的协议版本号）、一个成功或错误的代码、后面的是MIME信息（包括服务器信息、实体信息、可能的内容）。
4.客户端接收到服务器所返回的信息，通过浏览器显示在用户的显示屏上，然后客户机与服务器断开连接。客户端收到服务器信息后，向服务器发送一个确认包，此包发送完毕，表示完成三次握手。
。。。。。。
写到这忽然发现重点偏了，好吧，直接上鲜货吧！
我们平常在浏览器中看到过的网页其实就是超文本(hypertext)解析而成的，其网页源代码是一系列HTML代码，里面包含一系列标签
爬虫基础
当我们查看网页的时候我们可能会注意到，URL的开头会有http或https，这就是访问资源所需要的协议类型。
HTTP中文名就是叫做超文本传输协议，HTTP协议是用于从网络传输超文本数据到本地浏览器的传输协议，它能高效而准确地传送超文本文档。
HTTPS是以安全为目标的HTTP通道，在HTTP下加入SSL层，简称HTTPS
请求：
由客户端发出，分为四个部分：请求方法、请求网址、请求头、请求体
1.请求的方法有：GET和POST
GET：请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输
GET请求提交的数据最多只有1024个字节，而POST方式没有限制

这次的博客就写到这了，第一次写关于技术的文章，思绪有点乱，但会坚持下去，会好起来的。

相关推荐