初学Pybugthon头秃笔记(九)——txt文件open()失败问题的两种更优解决方法

Python3中txt文件因编码问题读取报错的解决日志更新

2019.06.13
Python二级等考教程-习题10.4
问题描述:源代码是词频统计,网络来源的西游记白话版txt,encoding设定为utf-8或gbk或默认不写都会报错。
————————————————————————————————————————————————
解决办法1:
encoding默认不写,打开方式由r改为rb(以二进制方式打开),效果如下:
初学Pybugthon头秃笔记(九)——txt文件open()失败问题的两种更优解决方法
可以看到虽然一定程度解决了问题,但是文件中的神奇分行符\r\n在分词后没有办法排除
(即便在排除列表中加上了’\r\n’,仍然会统计它的出现次数并使之荣登榜首)
(rb格式下对于其他不想要统计的中文字符串能够顺利排除没有障碍,只有’\r\n’不行)
————————————————————————————————————————————————
解决办法2:
把txt文件另存(用记事本打开),另存界面右下角重选编码方式:
初学Pybugthon头秃笔记(九)——txt文件open()失败问题的两种更优解决方法
这里选择为utf-8,调整代码再运行,问题解决:
初学Pybugthon头秃笔记(九)——txt文件open()失败问题的两种更优解决方法