linux内存布局及页面映射

Linux系统中,以32bit x86系统来说,进程的4GB内存空间(虚拟地址空间)被划分成为两个部分

------用户空间和内核空间,大小分别为0-3G3-4G

       用户进程通常情况下,只能访问用户空间的虚拟地址,不能访问到内核空间。

 

       每个进程的用户空间存放用户的程序和代码(堆栈,数据区,代码区等),因为是虚拟地址,所以每个进程的用户空间是完全独立的,互不影响。用户进程有自己的进程页表。

      内核空间是内核负责映射物理地址的(所有的进程共享一份内核空间的映射???这个还不太确定),内核空间有自己对应的页表,它与用户空间是独立的。

 

1.我们先来看一下用户空间的内存布局(即进程在内存的布局--C运行时库对内存的分配和管理)(下图中0--3G的范 围):

linux内存布局及页面映射linux内存布局及页面映射

 

    从上图我们可以看到,用户进程的代码区一般从虚拟地址空间的0x08048000开始,这是为了便于检查空指针。代码区之上便是数据区,未初始化数据区,堆区,栈区,以及参数、全局环境变量。用户空间内存布局可以分为以下几个方面(用户程序中所申请分配的都是用户空间的虚拟地址):

   代码段(.text/ code segment):这里存放程序执行代码(cpu要执行的指令)的一块内存区域。这部分区域在程序运行前就确定了,通常情况下是只读的(防止程序由于错误而修改自身指令)。某些结构也允许代码段可写,即可以修改程序。代码段是可以共享的,相同的代码在内存中只有一份拷贝。除了代码外,这个区域里面也可能包含一些只读的常数变量,如字符串常量  char *p="12345" ,这里“12345”就存在代码段里面。


    初始化数据段(.data segment):这里存放的是程序中需要明确赋初始值的变量,如已经初始化的全局变量。数据段属于静态内存分配。包括static变量。


    未初始化数据段(.bss):存放未经初始化的全局变量。内核在执行该程序前,将其初始化为0或者null。BBS(block started by symbol), 属于静态内存分配。

   堆(Heap):存放程序中进行动态内存申请,例如经常用到的malloc,new系列函数就是从这个段中申请内存。堆的大小不固定,可以动态增加(malloc)和缩减(free)

    栈(Stack):又称堆栈,函数中的局部变量以及在函数调用过程中产生的临时变量都保存在此段中。(在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的先进先出特点,所以栈特别方便用来保存/恢复调用现场。从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。 )

 

注:

1. 代码段(.text)和初始化数据段(.data) 都位于程序的可执行文件中,内核在调用exec函数启动该程序时从源程序文件中读入。
2. 栈是自顶向下扩展,栈是有界的(系统为 stack 区域保留了 128M 内存地址空间)。 堆是自底向上扩展,mmap映射区自顶向下扩展,mmap 映射区域和堆相对扩展,直至耗尽虚拟地址空间中的剩余区域,这种结构便于 C 运行时库使用 mmap 映射区域和堆进行内存分配。

3.栈和 mmap 映射区域并不是从一个固定地址开始,并且每次的值都不一样,这是程序在启动时随机改变这些值的设置,使得使用缓冲区溢出进行攻击更加困难。当然也可以让程序的栈和 mmap 映射区域从一个固定位置开始,只需要设置全局变量 randomize_v a_space 值为 0 ,这个变量默认值为 1 。用户可以通过设置/proc/sys/kernel/randomize_va_space 来停用该特性,也可以用如下命令:

       sudo sysctl -w kernel.randomize_va_space=0

4.bss段(未手动初始化的数据)并不给该段的数据分配空间,只是记录数据所需空间的大小。bss中未经初始化 的变量由exec初始化为0.
5.data(已手动初始化的数据)段则为数据分配空间,数据保存在目标文件中。

6. 代码段的大小在连接器链接之前,就得到,数据段包含经过初始化的全局变量以及它们的值BSS段的大小从可执行文件中得到 ,然后链接器得到这个大小的内存块,紧跟在数据段后面。当这个内存区进入程序的地址空间后全部清零。包含数据段和BSS段的整个区段此时通常称为数据区

 

2.在进程空间的3-4G之间的内核空间中,从低地址到高地址依次为:物理内存映射区隔离带—vmalloc虚拟内存分配区隔离带高端内存映射区专用页面映射区保留区

linux内存布局及页面映射 linux内存布局及页面映射

对照左右两个图(右边的图对于3G--3G+896范围分的更加详细一些),主要有以下几个区域(从上到下)

(1)高端128M由3部分组成(3G+896M--4G): ---这段空间需要通过页表转换才能与物理地址空间映射

  • 高端内存临时内核映射区(temporary kernel mapping)
  • 高端内存永久内核映射区(persistent kernel mapping)
  • vmalloc用来分配物理地址非连续的内存空间(vmalloc area) 

(2)系统物理内存映射区(从下到上3G--3G+896):----这段空间可以跟物理地址空间896M以下进行直接映射

  • 3G--3G+16M(低端16M区域):用于DMA操作
  • kernel image
  • mem_map
  • 其他内存区域

 

  【内核空间内存动态申请】主要包括三个函数:kmalloc(), __get_free_pages, vmalloc

     kmalloc(),__get_free_pages申请的内存位于物理地址映射区(3G--3G+896),且在物理上也是连续的,它们与真实的物理地址只有一个固定偏

    移(可以直接映射,因此存在较简单的转换关系。而vmalloc申请的内存位于vmalloc虚拟内存分配区(这些区都是以线性地址为度量),它在

    虚拟内存空间给出一块连续的内存区,实质上,这片连续的虚拟内存在物理内存中并不一定连续,需要通过页表转换

   因为vmalloc申请的在虚拟内存空间连续的内存区在物理内存中并不一定连续,可以想象为了完成vmalloc,新的页表需要被建立,因此,调用

    vmalloc配少量内存是不妥的。一般来讲,kmalloc用来分配小于128K的内存,而更大的内存块需要用vmalloc来实现

 

  【虚拟地址与物理地址关系】

   对于内核物理内存映射区的虚拟内存(用kmalloc(), __get_free_pages申请的),使用virt_to_phys()phys_to_virt()来实现物理地址和内核虚拟

   地址之间的互相转换。它实际上,仅仅做了3G的地址移位。

 

 

 

3. 下面我们来看下x86实际的物理地址空间布局:

   linux内存布局及页面映射

 

linux中页为单位来管理内存,内核将所有的物理地址划分为2^12个页面(Linux系统在初始化时,会根据实际的物理内存的大小,为每个物理页面创建一个page对象,所有的page对象构成一个mem_map数组),所有物理页面从图上可以看到划分到3类内存管理区中,ZONE_DMA,ZONE_NORMAL,ZONE_HIGHMEM。 

  • ZONE_DMA的范围是0~16M:

         0-640K 被PCI设备的I/O内存映射占据,它们的大小和布局由PCI规范所决定。

         640K~1M这段地址空间被BIOS和VGA适配器所占据。

 

         由于这两段地址空间的存在,导致相应的RAM空间不能被CPU所寻址(当CPU访问该段地址时,北桥会自动将目的物理地址“路由”到相应的I/O设备上,不会发送给RAM),从而形成RAM空洞。

 

 在系统初始化阶段,内核首先在实模式下建立一个物理地址映射来指定哪些物理地址范围对内核可用而哪些不可用(主要是根据映射硬件设备I/O的共享内存,或者根据相应的页框含有的BIOS数据)。

   内存某些部分永久地分配给BOIS或内核,用来存放BIOS信息、内核代码以及静态内核数据结构。所以内核将下列页框记为保留:
• 在不可用的物理地址范围内的页框,一般用来存放BIOS信息。
• 含有内核代码和已初始化的数据结构的页框。
  标记为保留页框中的页,绝不能被动态分配或交换到磁盘上。

  一般来说,Linux内核安装在RAM中从物理地址0x00100000开始的地方,也就是说,从第二个MB开始。所需页框总数依赖于内核的配置方案:典型的配置所得到的内核可以完全被安装在小于3MB的RAM中。为什么不从第一个M开始?因为第0个页给了BIOS使用,存放加电自检(Power-On Self-Test,POST)期间检查到的硬件配置。因此,很多膝上型电脑的BIOS甚至在系统初始化后还将数据写到该页框。物理地址从0x000a0000 到 0x000fffff的范围通常留给BIOS例程,虽然前1M里BIOS并没有使用完,但是为了避免把内核装入一组不连续的页框里,影响性能,Linux便跳过第1MB的RAM,之间从第2个MB开始加载。

     1M-16M 该区域的物理页面专门供I/O设备的DMA使用。之所以需要单独管理DMA的物理页面,是因为DMA使用物理地址访问

     内存,不经过MMU,并且需要连续的缓冲区,所以为了能够提供物理上连续的缓冲区,必须从物理地址空间专门划分一段区

     域用于DMA。 

  • ZONE_NORMAL的范围是16M~896M,该区域的物理页面是内核能够直接使用的(可以到内核3G--3G+896M直接映射)。 
  • ZONE_HIGHMEM的范围是896M~结束,该区域即为高端内存,内核不能直接使用。
  •  

 

4. 内核空间和物理空间的映射:

   linux内存布局及页面映射

 

   1. 由于ZONE_NORMAL和内核线性空间存在直接映射关系,所以内核会将频繁使用的数据如kernel代码、GDT、IDT、PGD、mem_map数组等放在ZONE_NORMAL里。而将用户数据、页表(PT)等不常用数据放在ZONE_ HIGHMEM里,只在要访问这些数据时才建立映射关系(kmap())。比如,当内核要访问I/O设备存储空间时,就使用ioremap()将位于物理地址高端的mmio区内存映射到内核空间的vmalloc area中,在使用完之后便断开映射关系。 

   2.由于开启了分页机制,内核想要访问物理地址空间的话,必须先建立映射关系,然后通过虚拟地址来访问。为了能够访问所有的物理地址空间,就要将全部物理地址空间映射到1G的内核线性空间中,这显然不可能。于是,内核将0~896M的物理地址空间一对一映射到自己的线性地址空间中,这样它便可以随时访问ZONE_DMA和ZONE_NORMAL里的物理页面;此时内核剩下的128M线性地址空间不足以完全映射所有的ZONE_HIGHMEM,Linux采取了动态映射的方法,即按需的将ZONE_HIGHMEM里的物理页面映射到kernel space的最后128M线性地址空间里,使用完之后释放映射关系,以供其它物理页面映射。虽然这样存在效率的问题,但是内核毕竟可以正常的访问所有的物理地址空间了。

 

5. 一般用户空间要通过内核空间,最终映射到物理地址空间(????),用户空间与物理空间也可能存在直接的映射:

linux内存布局及页面映射

  当RAM足够多时,内核会将用户数据保存在ZONE_ HIGHMEM,从而为内核腾出内存空间。

https://blog.csdn.net/sinat_16790541/article/details/42244757