第六章 应用层

应用层协议的特点 

  • 每个应用层协议都是为了解决某一类应用问题,而问题的解决又往往是通过位于不同主机中的多个应用进程之间的通信和协同工作来完成的。应用层的具体内容就是规定应用进程在通信时所遵循的协议。
  • 应用层的许多协议都是基于客户服务器方式。客户(client)和服务器(server)都是指通信中所涉及的两个应用进程。客户服务器方式所描述的是进程之间服务和被服务的关系。客户是服务请求方,服务器是服务提供方。  

6.1  域名系统 DNS

6.1.1  域名系统概述

许多应用层软件经常直接使用域名系统 DNS (Domain Name System),但计算机的用户只是间接而不是直接使用域名系统。 
互联网采用层次结构的命名树作为主机的名字,并使用分布式的域名系统 DNS。

名字到 IP 地址的解析是由若干个域名服务器程序完成的。域名服务器程序在专设的结点上运行,运行该程序的机器称为域名服务器。 

 6.1.2   互联网的域名结构

域名的结构由标号序列组成,各标号之间用点隔开:

… . 三级域名 . 二级域名 . *域名

互联网的域名空间 

第六章 应用层


6.1.3  域名服务器 

一个服务器所负责管辖的(或有权限的)范围叫做区 (zone),每一个区设置相应的权限域名服务器,用来保存该区中的所有主机的域名到 IP 地址的映射。

域名服务器有以下四种类型 

根域名服务器 
*域名服务器 
权限域名服务器 

本地域名服务器 

域名的解析过程 :

  • 主机向本地域名服务器的查询一般都是采用递归查询。如果主机所询问的本地域名服务器不知道被查询域名的 IP 地址,那么本地域名服务器就以 DNS 客户的身份,向其他根域名服务器继续发出查询请求报文。
  • 本地域名服务器向根域名服务器的查询通常是采用迭代查询。当根域名服务器收到本地域名服务器的迭代查询请求报文时,要么给出所要查询的 IP 地址,要么告诉本地域名服务器:“你下一步应当向哪一个域名服务器进行查询”。然后让本地域名服务器进行后续的查询。

每个域名服务器都维护一个高速缓存,存放最近用过的名字以及从何处获得名字映射信息的记录。


6.2  文件传送协议

6.2.1  FTP概述

文件传送协议 FTP (File Transfer Protocol) 是互联网上使用得最广泛的文件传送协议。

FTP 提供交互式的访问,允许客户指明文件的类型与格式,并允许文件具有存取权限。

主进程的工作步骤

打开熟知端口(端口号为 21),使客户进程能够连接上。
等待客户进程发出连接请求。
启动从属进程来处理客户进程发来的请求。从属进程对客户进程的请求处理完毕后即终止,但从属进程在运行期间根据需要还可能创建其他一些子进程。

回到等待状态,继续接受其他客户进程发来的请求。主进程与从属进程的处理是并发地进行


两个连接

  • 控制连接在整个会话期间一直保持打开,FTP 客户发出的传送请求通过控制连接发送给服务器端的控制进程,但控制连接不用来传送文件。
  • 实际用于传输文件的是“数据连接”。服务器端的控制进程在接收到 FTP 客户发送来的文件传输请求后就创建“数据传送进程”和“数据连接”,用来连接客户端和服务器端的数据传送进程。
  • 数据传送进程实际完成文件的传送,在传送完毕后关闭“数据传送连接”并结束运行。 

第六章 应用层

两个不同的端口号 

  • 当客户进程向服务器进程发出建立连接请求时,要寻找连接服务器进程的熟知端口 (21),同时还要告诉服务器进程自己的另一个端口号码,用于建立数据传送连接。
  • 接着,服务器进程用自己传送数据的熟知端口 (20) 与客户进程所提供的端口号码建立数据传送连接。
  • 由于 FTP 使用了两个不同的端口号,所以数据连接与控制连接不会发生混乱。

6.2.3  简单文件传送协议 TFTP  

TFTP (Trivial File Transfer Protocol) 是一个很小且易于实现的文件传送协议。
TFTP 使用客户服务器方式和使用 UDP 数据报,因此 TFTP 需要有自己的差错改正措施。

TFTP 只支持文件传输而不支持交互。


6.3  远程终端协议 TELNET

TELNET 是一个简单的远程终端协议,也是互联网的正式标准。
用户用 TELNET 就可在其所在地通过 TCP 连接注册(即登录)到远地的另一个主机上(使用主机名或 IP 地址)。

TELNET 能将用户的击键传到远地主机,同时也能将远地主机的输出通过 TCP 连接返回到用户屏幕。这种服务是透明的,因为用户感觉到好像键盘和显示器是直接连在远地主机上

第六章 应用层


6.4  万维网 WWW

万维网 WWW (World Wide Web) 并非某种特殊的计算机网络。万维网是一个大规模的、联机式的信息储藏所。万维网用链接的方法能非常方便地从互联网上的一个站点访问另一个站点,从而主动地按需获取丰富的信息。这种访问方式称为“链接”。

第六章 应用层

超媒体与超文本:万维网是分布式超媒体 (hypermedia) 系统,它是超文本 (hypertext) 系统的扩充。

一个超文本由多个信息源链接成。利用一个链接可使用户找到另一个文档。超媒体与超文本的区别是文档内容不同。超文本文档仅包含文本信息,而超媒体文档还包含其他表示方式的信息,如图形、图像、声音、动画,甚至活动视频图像。

万维网以客户:服务器方式工作。

  • 使用统一资源定位符 URL (Uniform Resource Locator) 来标志万维网上的各种文档。使每一个文档在整个互联网的范围内具有唯一的标识符 URL。 
  • 在万维网客户程序与万维网服务器程序之间进行交互所使用的协议,是超文本传送协议 HTTP (HyperText Transfer Protocol)。HTTP 是一个应用层协议,它使用 TCP 连接进行可靠的传送。 
  • 超文本标记语言 HTML (HyperText Markup Language) 使得万维网页面的设计者可以很方便地用一个超链从本页面的某处链接到互联网上的任何一个万维网页面,并且能够在自己的计算机屏幕上将这些页面显示出来。 

URL 的一般形式是:

第六章 应用层

<主机> 是存放资源的主机在互联网中的域名

<端口>/<路径>有时可省略,HTTP 的默认端口号是 80,


6.4.3  超文本传送协议 HTTP 

1.  HTTP 的操作过程
为了使超文本的链接能够高效率地完成,需要用 HTTP 协议来传送一切必须的信息。
从层次的角度看,HTTP 是面向事务的(transaction-oriented)应用层协议,它是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。 

第六章 应用层

(1) 浏览器分析超链指向页面的 URL。
(2) 浏览器向 DNS 请求解析 www.tsinghua.edu.cn 的 IP 地址。
(3) 域名系统 DNS 解析出清华大学服务器的 IP 地址。
(4) 浏览器与服务器建立 TCP 连接。
(5) 浏览器发出取文件命令:GET /chn/yxsz/index.htm。
(6) 服务器给出响应,把文件 index.htm 发给浏览器。
(7) TCP 连接释放。
(8) 浏览器显示“清华大学院系设置”文件 index.htm 中的所有文本。

HTTP 的主要特点 

HTTP 是面向事务的客户服务器协议。
HTTP 1.0 协议是无状态的 (stateless)。

HTTP 协议本身也是无连接的,虽然它使用了面向连接的 TCP 向上提供的服务。

HTTP/1.1 协议使用持续连接 (persistent connection):万维网服务器在发送响应后仍然在一段时间内保持这条连接,使同一个客户(浏览器)和该服务器可以继续在这条连接上传送后续的 HTTP 请求报文和响应报文

持续连接的两种工作方式:

流水线方式:客户在收到前一个响应后才能发出下一个请求。

流水线方式:客户在收到 HTTP 的响应报文之前就能够接着发送新的请求报文。


2. 代理服务器

代理服务器 (proxy server) 又称为万维网高速缓存 (Web cache),它代表浏览器发出 HTTP 请求。

万维网高速缓存把最近的一些请求和响应暂存在本地磁盘中。

第六章 应用层

  • 浏览器访问互联网的服务器时,要先与校园网的高速缓存建立 TCP 连接,并向高速缓存发出 HTTP 请求报文。
  • 若高速缓存已经存放了所请求的对象,则将此对象放入 HTTP 响应报文中返回给浏览器。
  • 否则,高速缓存就代表发出请求的用户浏览器,与互联网上的源点服务器建立 TCP 连接,并发送 HTTP 请求报文。
  • 源点服务器将所请求的对象放在 HTTP 响应报文中返回给校园网的高速缓存。
  • 高速缓存收到此对象后,先复制在其本地存储器中(为今后使用),然后再将该对象放在 HTTP 响应报文中,通过已建立的 TCP 连接,返回给请求该对象的浏览器。

3. HTTP 的报文结构 

HTTP 有两类报文:
请求报文——从客户向服务器发送请求报文。
响应报文——从服务器到客户的回答。
由于 HTTP 是面向正文的 (text-oriented),因此在报文中的每一个字段都是一些 ASCII 码串,因而每个字段的长度都是不确定的。

报文由三个部分组成,即开始行、首部行和实体主体。在请求报文中,开始行就是请求行。

第六章 应用层

“方法”是面向对象技术中使用的专门名词。所谓“方法”就是对所请求的对象进行的操作,因此这些方法实际上也就是一些命令。因此,请求报文的类型是由它所采用的方法决定的。 

第六章 应用层


6.4.4  万维网的文档

1. 超文本标记语言 HTML

HTML 把各种标签嵌入到万维网的页面中。这样就构成了所谓的 HTML 文档。

第六章 应用层

HTML还规定了链接的设置方法。每个链接都有一个起点和终点。

远程链接:超链的终点是其他网点上的页面。
本地链接:超链指向本计算机中的某个文件。

XML (Extensible Markup Language)是可扩展标记语言,它和HTML很相似。但XML的设计宗旨是传输数据,而不是显示数据(HTML是为了在浏览器上显示数据)。

XHTML (Extensible HTML) 是可扩展超文本标记语言,它与 HTML 4.01 几乎是相同的。

CSS (Cascading Style Sheets) 是层叠样式表,它是一种样式表语言,用于为 HTML 文档定义布局


动态万维网文档 

  • 静态文档是指该文档创作完毕后就存放在万维网服务器中,在被用户浏览的过程中,内容不会改变。 
  • 动态文档是指文档的内容是在浏览器访问万维网服务器时才由应用程序动态创建。
  • 动态文档和静态文档之间的主要差别体现在服务器一端。这主要是文档内容的生成方法不同。而从浏览器的角度看,这两种文档并没有区别。  

6.5  电子邮件

发送邮件的协议:SMTP
读取邮件的协议:POP3 和 IMAP

第六章 应用层

请注意,POP3 服务器和 POP3 客户之间的通信是由 POP3 客户发起的。

由于 SMTP 使用客户服务器方式,因此负责发送邮件的 SMTP 进程就是 SMTP 客户,而负责接收邮件的 SMTP 进程就是 SMTP 服务器。

SMTP 通信的三个阶段

1. 连接建立:连接是在发送主机的 SMTP 客户和接收主机的 SMTP 服务器之间建立的。SMTP不使用中间的邮件服务器。   
2. 邮件传送
3. 连接释放:邮件发送完毕后,SMTP 应释放 TCP 连接。 


6.5.5  基于万维网的电子邮件

电子邮件从 A 发送到网易邮件服务器使用 HTTP 协议。
两个邮件服务器之间的传送使用 SMTP。
邮件从新浪邮件服务器传送到 B 是使用 HTTP 协议。

第六章 应用层

万维网电子邮件的好处:只要能够找到上网的计算机,打开任何一种浏览器就可以非常方便地收发电子邮件。


6.5.6  通用互联网邮件扩充 MIME

通用互联网邮件扩充 MIME 并没有改动 SMTP 或取代它。
MIME 的意图是继续使用目前的 [RFC 822] 格式,但增加了邮件主体的结构,并定义了传送非 ASCII 码的编码规则。  

6.6  动态主机配置协议 DHCP

互联网广泛使用的动态主机配置协议 DHCP (Dynamic Host Configuration Protocol) 提供了即插即用连网 (plug-and-play networking) 的机制。
这种机制允许一台计算机加入新的网络和获取IP 地址而不用手工参与。

DHCP 使用客户服务器方式

  • 需要 IP 地址的主机在启动时就向 DHCP 服务器广播发送发现报文(DHCPDISCOVER),这时该主机就成为 DHCP 客户。
  • 本地网络上所有主机都能收到此广播报文,但只有 DHCP 服务器才回答此广播报文。
  • DHCP 服务器先在其数据库中查找该计算机的配置信息。若找到,则返回找到的信息。若找不到,则从服务器的 IP 地址池(address pool)中取一个地址分配给该计算机。DHCP 服务器的回答报文叫做提供报(DHCPOFFER)。 
并不是每个网络上都有 DHCP 服务器,这样会使 DHCP 服务器的数量太多。现在是每一个网络至少有一个 DHCP 中继代理,它配置了 DHCP 服务器的 IP 地址信息。当 DHCP 中继代理收到主机发送的发现报文后,就以单播方式向 DHCP 服务器转发此报文,并等待其回答。收到 DHCP 服务器回答的提供报文后,DHCP 中继代理再将此提供报文发回给主机。

第六章 应用层

注意:DHCP 报文只是 UDP 用户数据报中的数据。 


6.8  应用进程跨越网络的通信

6.8.1  系统调用和应用编程接口

大多数操作系统使用系统调用 (system call )的机制在应用程序和操作系统之间传递控制权。

对程序员来说,每一个系统调用和一般程序设计中的函数调用非常相似,只是系统调用是将控制权传递给了操作系统。 

第六章 应用层

  • 当某个应用进程启动系统调用时,控制权就从应用进程传递给了系统调用接口。
  • 此接口再将控制权传递给计算机的操作系统。操作系统将此调用转给某个内部过程,并执行所请求的操作。
  • 内部过程一旦执行完毕,控制权就又通过系统调用接口返回给应用进程。
  • 系统调用接口实际上就是应用进程的控制权和操作系统的控制权进行转换的一个接口,即应用编程接口  API (Application Programming Interface) 

几种应用编程接口 API :Berkeley UNIX 操作系统定义了一种 API,它又称为套接字接口 (socket interface)。
微软公司在其操作系统中采用了套接字接口  API,形成了一个稍有不同的 API,并称之为  Windows Socket。

AT&T 为其 UNIX 系统 V 定义了一种 API,简写为 TLI (Transport Layer Interface)。 

第六章 应用层


套接字的作用 

  • 当应用进程需要使用网络进行通信时就发出系统调用,请求操作系统为其创建“套接字”,以便把网络通信所需要的系统资源分配给该应用进程。
  • 操作系统为这些资源的总和用一个叫做套接字描述符的号码来表示,并把此号码返回给应用进程。应用进程所进行的网络操作都必须使用这个号码。
  • 通信完毕后,应用进程通过一个关闭套接字的系统调用通知操作系统回收与该“号码”相关的所有资源

第六章 应用层


6.8.2  几种常用的系统调用 

1. 连接建立阶段

  • 当套接字被创建后,它的端口号和 IP 地址都是空的,因此应用进程要调用 bind(绑定)来指明套接字的本地地址。在服务器端调用 bind 时就是把熟知端口号和本地IP地址填写到已创建的套接字中。这就叫做把本地地址绑定到套接字。
  • 服务器在调用 bind 后,还必须调用 listen(收听)把套接字设置为被动方式,以便随时接受客户的服务请求。UDP 服务器由于只提供无连接服务,不使用 listen 系统调用。
  • 服务器紧接着就调用 accept(接受),以便把远地客户进程发来的连接请求提取出来。系统调用 accept 的一个变量就是要指明从哪一个套接字发起的连接。 

第六章 应用层

调用 accept 要完成的动作较多。这是因为一个服务器必须能够同时处理多个连接。这样的服务器常称为并发方式 (concurrent) 工作的服务器。


2. 传送阶段

  • 客户和服务器都在 TCP 连接上使用 send 系统调用传送数据,使用 recv 系统调用接收数据。
  • 通常客户使用 send 发送请求,而服务器使用 send 发送回答。
  • 服务器使用 recv 接收客户用 send 调用发送的请求。客户在发完请求后用 recv 接收回答

3. 连接释放阶段

一旦客户或服务器结束使用套接字,就把套接字撤消。这时就调用 close 释放连接和撤销套接字。

第六章 应用层


6.9  P2P 应用

在 P2P 工作方式下,所有的音频/视频文件都是在普通的互联网用户之间传输。这是相当于有很多分散在各地的媒体服务器向其他用户提供所要下载的音频/视频文件。

使用 P2P 的比特洪流 BT 

BitTorrent 所有对等方集合称为一个洪流 (torrent),下载文件的数据单元为长度固定的文件块 (chunk)。基础设施结点,叫做追踪器 (tracker)。

第六章 应用层

BT 协议

  • 当一个新的对等方 A 加入洪流时,追踪器就随机地从参与的对等方集合中选择若干个(例如,30 个),并把这些对等方的 IP 地址告诉 A。于是 A 就和这些对等方建立了 TCP 连接。所有与 A 建立了 TCP 连接的对等方为“相邻对等方”(neighboring peers)。
  • A 使用最稀有的优先 (rarest first) 的技术,首先向其相邻对等方请求对应的文件块。
  • 凡当前以最高数据率向 A 传送文件块的某相邻对等方,A 就优先把所请求的文件块传送给该相邻对等方。