Python Struct fmt 结构体内存对齐 二进制文件解析

本文主要针对结构体内存对齐,python Struct,以及二进制文件解析做总结。

一、结构体内存对齐

1、为什么要内存对齐

(1)平台移植性好

不是所有硬件平台都能访问任意地址上的数据,某些硬件平台只能在某些地址访问某些特定类型的数据,否在抛出硬件异常,即遇到未对齐的边界值就直接不进行读取数据了。

(2)cpu处理效率高

用空间换取时间,提高效率。

举个例子:如下结构体,cpu对齐单位4

Python Struct fmt 结构体内存对齐 二进制文件解析

如果不对齐,读取字节的方式如下,会读取3个周期

Python Struct fmt 结构体内存对齐 二进制文件解析

如果字节对齐,一共读取2个周期,如下:

Python Struct fmt 结构体内存对齐 二进制文件解析

2、结构体怎么对齐的?

(1)对齐规则

第一个成员在与结构体变量偏移量为0的地址

对齐数=编译器默认的一个对齐数与该成员大小的较小值

下一个成员存放的起点,必须是该成员大小的整数倍

linux中默认为4,vs中默认值为8

结构体总大小为对齐数的整数倍(每个成员变量,除了第一个,都有一个对齐数,该对齐数为其中最大的一个)

(2)举例说明:

例子1:

Python Struct fmt 结构体内存对齐 二进制文件解析

例子2:

Python Struct fmt 结构体内存对齐 二进制文件解析

Python Struct fmt 结构体内存对齐 二进制文件解析

Python Struct fmt 结构体内存对齐 二进制文件解析

二、python struct

1、struct函数

struct 模块中最重要的三个函数,pack(),unpack(),calcsize()

(1)按照给定的格式化字符串,把数据封装成字符串(类似于C结构体的字节流)

string = struct.pack(fmt, v1, v2, ...)

(2)按照给定的格式(fmt)解析字节流string,返回解析出来的tuple

tuple = unpack(fmt, string)

(3)计算给定的格式(fmt)占用多少字节的内存

offset = calcsize(fmt)

2、struct 中的格式化字符串

(1)struct 中支持的格式如下表:

Python Struct fmt 结构体内存对齐 二进制文件解析

Python Struct fmt 结构体内存对齐 二进制文件解析

(2)为了同c中的结构体交换数据,还要考虑有的C或C++编译使用了字节对齐,通常是以4个字节为单位的32位系统,故而struct根据本地机器字节顺序转换,可以用格式中的第一个字符来改变对齐方式,定义如下:

Python Struct fmt 结构体内存对齐 二进制文件解析

Python Struct fmt 结构体内存对齐 二进制文件解析

(3)举个例子:

Python Struct fmt 结构体内存对齐 二进制文件解析

三、二进制文件解析

1、解析C语言生成的二进制文件思路:

(1)以二进制文件读取文件

(2)二进制文件一般由文件头+内容(数据块组成),一般解析内容

(3)根据原生文件的结构体进行解析

(4)获取文件大小,再减去头部,根据每个数据块的大小,计算循环读取次数

Python Struct fmt 结构体内存对齐 二进制文件解析

2、写CSV文件

struct unpack解析出来的数据是元组格式,需要转换为list,方便写入csv文件

Python Struct fmt 结构体内存对齐 二进制文件解析