应用程序中各数据段的划分

应用程序数据分段如下:
BSS段:BSS段(bss segment)通常是指用来存放程序中未初始化的全局变量或静态变量的一块内存区域。BSS是英文Block Started by Symbol的简称。BSS段属于静态内存分配。最终通过将零页映射到指定的内存区域,即可将内存区域的数据清0。该段不占用可执行文件的大小,在运行时才会去初始化。对于未初始化的全局变量,在编译阶段变量是被放在COMMMON段内,到了链接的时候才会放到BSS段内。这一特性带来的影响就是,在重复定义变量时的冲突问题,具体详情见下文例2~3。
数据段:数据段(data segment)通常是指用来存放程序中已初始化的全局变量的一块内存区域。数据段属于静态内存分配。还保存static变量。该段会影响可执行文件的大小。
代码段:代码段(code segment/text segment)通常是指用来存放程序执行代码的一块内存区域。这部分区域的大小在程序运行前就已经确定,并且内存区域通常属于只读, 某些架构也允许代码段为可写,即允许修改程序。在代码段中,也有可能包含一些只读的常数变量,例如字符串常量等。
堆(heap):堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)
(stack):栈又称堆栈, 是用户存放程序临时创建的局部变量,也就是说我们函数括弧“{}”中定义的变量(但不包括static声明的变量,static意味着在数据段中存放变量)。除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的先进先出特点,所以栈特别方便用来保存/恢复调用现场。从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。
查看二进制文件中各分段的信息,可以使用的工具有:objdump/readelf/size
objdump -h main.o、readelf -S main.o、size -A main.o
     查看目标文件各段信息,如大小、地址、文件偏移等
objdump -s main.o、readelf -x <.data> main.o
    查看目标文件各段的数据内容
objdump -t main.o、readelf -s main.o
    查看目标文件中符号表信息,如变量a属于哪一段、占多少字节等
例1:
void main(void)
{
//    char c;
//    return 0;
}[[email protected] test1]$ size -A main.o

应用程序中各数据段的划分

例2:
int a;
int b=1;
void main(void)
{
//    char c;
//    return 0;
}

应用程序中各数据段的划分

这里看到全局未初始化变量a没有放到bss段里,而是COMMON里。再看看链接之后:
应用程序中各数据段的划分

在链接之后,变量a才被放到BSS段里。看看下面这个例子:
例3:
//文件1
#include <stdio.h>
int a;
void funa(void)
{
    printf("funa:a=%d\n",a);
}
//文件2
#include <stdio.h>
int a=1;
void funb(void)
{
    printf("funb:a=%d\n",a);
}
void main(void)
{
    funa();
    funb();
}
结果:
应用程序中各数据段的划分
编译没有出错,运行也是OK的,但funa里的全局变量a默认值却为1。接下来我们将文件1中的变量a显式初始化0

//文件1:show.c
#include <stdio.h>
int a = 0;  //此处改成显式初始化
void funa(void)
{
    printf("funa:a=%d\n",a);
}
//文件2:main.c
#include <stdio.h>
int a=1;
void funb(void)
{
    printf("funb:a=%d\n",a);
}
void main(void)
{
    funa();
    funb();
}

编译结果:
应用程序中各数据段的划分
错误提示重复定义。
查看此时目标文件中的a,发现显式初始化后a直接放在bss段
应用程序中各数据段的划分

这个例子最终说明了,未初始化的变量在编译阶段存放在COMMON段中,属于弱符号。若有其他文件中再次定义该变量并显式初始化,此时属于强符号。在链接这些文件时,强符号会覆盖弱符号,在编译或者运行时不会有任何错误提示。