python重写xml,结尾出现NUL的乱码情况

     问题描述:

       最近在重复修改一个xml,但发现时而能读取成功,时而读取失败。分析发现失败的原因是重写之后,xml的结尾多了NUL这样的乱码,有时出现很多NUL。如下图

python重写xml,结尾出现NUL的乱码情况

     问题原因:

       研究后发现,python中xml的读写方式是这样的:

1.首先codecs.open函数以‘w'方式读取后,原有的数据会变成乱码,如下图:

python重写xml,结尾出现NUL的乱码情况

2.然后将需要保存的xml转码后,覆盖保存在NUL的一串乱码上。

这时,如果转码后的数据 > 原有数据 ,则没有问题;否则,会有一部分的NUL乱码没有被覆盖,导致出现如上的情况

 

     解决方案:

       在读取xml数据后,将xml中原有数据截断(清空),再写入新的数据。

    out_file = codecs.open(targetFile, 'w', encoding=ENCODE_METHOD)
    out_file.seek(0)
    out_file.truncate()

       经测试发现,truncate过后,数据还是存在。最终我的做法是删了这个文件,重新写入

    if os.path.exists(targetFile):
        os.remove(targetFile)
    out_file = codecs.open(targetFile, 'w', encoding=ENCODE_METHOD)