Python Struct fmt 结构体内存对齐 二进制文件解析
本文主要针对结构体内存对齐,python Struct,以及二进制文件解析做总结。
一、结构体内存对齐
1、为什么要内存对齐
(1)平台移植性好
不是所有硬件平台都能访问任意地址上的数据,某些硬件平台只能在某些地址访问某些特定类型的数据,否在抛出硬件异常,即遇到未对齐的边界值就直接不进行读取数据了。
(2)cpu处理效率高
用空间换取时间,提高效率。
举个例子:如下结构体,cpu对齐单位4
如果不对齐,读取字节的方式如下,会读取3个周期
如果字节对齐,一共读取2个周期,如下:
2、结构体怎么对齐的?
(1)对齐规则
第一个成员在与结构体变量偏移量为0的地址
对齐数=编译器默认的一个对齐数与该成员大小的较小值
下一个成员存放的起点,必须是该成员大小的整数倍
linux中默认为4,vs中默认值为8
结构体总大小为对齐数的整数倍(每个成员变量,除了第一个,都有一个对齐数,该对齐数为其中最大的一个)
(2)举例说明:
例子1:
例子2:
二、python struct
1、struct函数
struct 模块中最重要的三个函数,pack(),unpack(),calcsize()
(1)按照给定的格式化字符串,把数据封装成字符串(类似于C结构体的字节流)
string = struct.pack(fmt, v1, v2, ...)
(2)按照给定的格式(fmt)解析字节流string,返回解析出来的tuple
tuple = unpack(fmt, string)
(3)计算给定的格式(fmt)占用多少字节的内存
offset = calcsize(fmt)
2、struct 中的格式化字符串
(1)struct 中支持的格式如下表:
(2)为了同c中的结构体交换数据,还要考虑有的C或C++编译使用了字节对齐,通常是以4个字节为单位的32位系统,故而struct根据本地机器字节顺序转换,可以用格式中的第一个字符来改变对齐方式,定义如下:
(3)举个例子:
三、二进制文件解析
1、解析C语言生成的二进制文件思路:
(1)以二进制文件读取文件
(2)二进制文件一般由文件头+内容(数据块组成),一般解析内容
(3)根据原生文件的结构体进行解析
(4)获取文件大小,再减去头部,根据每个数据块的大小,计算循环读取次数
2、写CSV文件
struct unpack解析出来的数据是元组格式,需要转换为list,方便写入csv文件