关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系

socket,首先说说它的由来。进入正题之前,我们来看看常说的http协议、TCP/IP协议,这些到底是什么?(本文旨在宏观上对各个协议的表述和总结,具体各个协议的实现还需诸道友深入探索)

大家都知道OSI七层模型(不知道没关系,上图)
关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系
OSI参考模型中定义了每一层的“作用”,那么定义每一层“作用”的就是“协议”,“协议”是一种约定,其具体内容叫做“规范”,我们日常所使用的就是遵循各个协议具体“规范”的产品和通讯手段。

咱们来看看TCP/IP协议和OSI有什么关系。
从上图不难看出,TCP/IP与OSI在分层上稍有区别。
OSI参考模型注重“通信协议的功能是什么”,
而TCP/IP则更强调“在计算机上实现协议应该开发哪种程序”

从字面意义上讲,有人可能会认为 TCP/IP 是指 TCP 和 IP
两种协议。实际生活当中有时也确实就是指这两种协议。然而在很多情况下,它只是利用 IP 进行通信时所必须用到的协议群的统称。具体来说,IP 或 ICMP、TCP 或 UDP、TELNET 或 FTP、以及 HTTP 等都属于 TCP/IP 协议。
他们与 TCP 或 IP的关系紧密,是互联网必不可少的组成部分。TCP/IP 一词泛指这些协议,因此,有时也称 TCP/IP 为网际协议群。

互联网进行通信时,需要相应的网络协议,TCP/IP 原本就是为使用互联网而开发制定的协议族。因此,互联网的协议就是TCP/IP,TCP/IP 就是互联网的协议。

接着给大家上图(图形是接收知识更为高效的途径)

关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系
总结一下:
OSI是7层,关注于通信协议的功能

TCP/IP 协议是 4层,强调在计算机上实现协议应该开发哪种程序
(还有一种是5层模型,即将4层模型中的网络接口层 分解成了 5层模型中的 物里层 和数据链路层

HTTP 协议 是TCP/IP 协议里面包含的 应用层的协议。

说完了OSI、TCP/IP、Http, socket该出场了。

关于socket更为具体的讲述可关注码农翻身公众号,作者刘欣,一个讲故事的架构师。我关注他的文章很久了,推荐给大家。

TCP/IP所谓的IP层(网络层)就是把数据分组从一个主机跨越千山万水搬运到另外一主机, 并且这搬运服务一点都不可靠, 丢包、重复、失序可以说是家常便饭,怪不得说是“尽力而为”。

脏活累活只好让TCP来做了, 在两个主机的应用(进程)之间通过失败重传来实现可靠性的传输。

建立一个TCP连接可是相当的复杂, 我的程序得先和远端的服务器打个招呼, 然后它再给我打个招呼确认, 我还得再给它确认下。 这还不算完, 我们的招呼中还得各自带上各自的序号, 这将来传输真正的数据时用到。

具体的传输就更麻烦了, 什么滑动窗口,什么累积确认、分组缓存、流量控制, 简直不是人做的事情。

到了断开连接的时候, 还得考虑友好分手!

TCP协议的确很复杂, 我们不能要求每个程序员都去实现建立连接的3次握手, 累积确认,分组缓存, 这些应该是属于操作系统内核的部分, 没必要重复开发, 但是对于应用程序来讲, 操作系统需要抽象出一个概念, 让上层应用去编程。

这个抽象出来的概念,就是socket。

那么,为什么叫socket呢?英文翻译一下,插座?哈哈,差不多啦,一个比喻而已
就像插座一样, 一个插头插进插座, 建立了连接。
可以理解为 (客户端IP, 客户端Port, 服务器端IP, 服务器端Port), 对了, Port就是端口, 通俗点讲就是一个数字而已

我们来看看下面的一段对话:

张大胖:“好像不用port就可以吧, 因为我们这是两个机器之间的通信, IP是不是就够了?”

Bill 说:“看来你忘了, TCP是两个进程之间的通信, 客户端上可以有很多进程同时访问多个服务器, 服务器上也有多个进程对外提供服务, 肯定要区分开啊”

张大胖不好意思的说: “原来端口号就是用来区分进程的, 这样IP层发过来的数据包, 到达TCP层以后就可以分发给各个应用程序了。 ”

“对的, 这叫多路复用。 一般来说, 服务器端都是被动访问的, 所以大家需要知道它提供服务的端口号, 要不然怎么连接? 例如80, 443等, 就是所谓知名端口号; 而客户端访问服务器的时候,自己的端口号可以随机生成一个, 只要不和别的应用冲突即可。”

关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系

Socket编程

张大胖问道: “那具体怎么使用你的Socket来编程? ”

“这要分为客户端和服务器端,两者不一样, 对客户端来讲很简单, 你需要创建一个socket, 然后向服务器发起连接, 连接上以后就可以发送,接收数据了, 你看看这段伪代码“

关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系
“恩, 抽象以后果然是不一样, 那些烦人的细节都被隐藏了, 只剩下一些概念性的东西, 用起来很清爽, 这个clientfd 我猜就是一个像文件描述符那样的东西吧? 打开文件就会有一个”

“对的, 很好的类比, 注意,在上面的伪码中,没有出现客户端的ip和端口, 系统可以自动获得IP, 也可以自动分配端口。 还有, 看到那个connect 函数没有, 其实就是在和服务器发起三次握手呢。 ”

“那服务器怎么响应?”

“服务器端要复杂一些, 你想想看, 第一, 服务器是被动的, 所以它启动以后, 需要监听客户端发起的连接, 第二, 服务器要应付很多的客户端发起连接, 所以它一定得各个socket给区分开了, 要不就乱了套了, 伪代码是这个样子的:”
关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系
张大胖说: “果然是复杂多了, listenfd ,从名称看就是为了要监听而创建的socket描述符吧, bind 是干嘛? 嗯, 我猜是为了声明说我要占用这个端口了啊, 你们都别用了, listen函数才是真正开始监听了。

慢着,我靠, 接下来是个死循环啊, 啊对对,服务器端一直提供服务, 永不停歇。 可是这个accept是干嘛, 为什么使用了listenfd , 然后返回了一个新的connfd ???”

Bill满意的说: “不错,思考就有进步, 可是你忘了我刚说的东西了, 服务器要区分开各个客户端, 怎么区分呢? 那只有用一个新的socket来表示喽, 你看后面的操作都是基于connfd 来做的。 还有这个accept 相当于和客户端的connect 一起完成了TCP的三次握手 ! 至于之前的listenfd , 它只起到一个大门的作用了, 意思是说,欢迎敲门, 进门之后我将为你生成一个独一无二的socket描述符! ”

关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系

“有道理, 大神果然是大神, 考虑的非常全面啊, 不过似乎有个漏洞,你一开始说socket指的是 (IP, Port), 现在你已经有了一个listenfd 的socket, 端口是80 然后每次客户端发起连接还要创建新的connfd, 因为80端口已经被占用,难道服务器端会为每个连接都创建新的端口吗?”

“这是个好问题啊” Bill 说 “其实新创建的connfd 并没有使用新的端口号,也是用的80, 可以这么理解,这个socket描述符指向一个数据结构, 例如 listenfd 指向的结构是这样的:”

关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系
“而一旦accept 新的连接, 新的connfd 就会生成, 像下面的表格, 就生成了两个connfd , 它们俩服务器端的ip和port都是想同的, 但是客户端的IP和Port是不同的, 自然就可以区分开来了”
关于socket、TCP/IP协议、http协议以及OSI模型的血缘关系
张大胖说:“唉, 这底层做了这么多工作啊, 看来socket 必须得通过(客户端IP, 客户端Port, 服务器端IP, 服务器端Port) 来确定”

“其实这个四元组还不太准确, 因为咱们说了半天,都是TCP协议的socket, 因为你们领导只要你实现这一个, 你看过UDP没有? 就是那个无连接的运输层协议, 也有socket, 所以更准确的定义的话,还得加上协议这一项, 变成五元组(协议, 客户端IP, 客户端Port, 服务器端IP, 服务器端Port) ”