关于Python2.*和Python3.*的编码解码问题
目录
一:前言
之前写过一个编码的历史,点这里,在不同语言中还是有不同的做法,最近在学习Python,就把Python中的编码问题详细写一遍,巩固一下基础知识
二:什么是编码
人类可以直接理解,易懂的信息称为"明文"(plain text),对于说英语的人,纸张上打印的或者屏幕上显示的英文单词都算是明文,从明文到编码文本转换称为"编码"(encode),从编码文本转换为明文则称为"解码"(decode)
三:Python2.*编码
有两种类型,一种是str,一种是unicode,这两个都是basestring的子类
str是字节串,是Unicode经过编码后的字节组成的序列。对UTF-8编码的str'苑'使用len()函数,结果是3,因为utf8编码的'苑' == '\xe8\x8b\x91'
unicode是一个字符串,unicode才是真正意义上的字符串,len(u'苑')==1
在Python2.*中,str=bytes
特点:自动将bytes数据解码为Unicode字符串
#coding:utf8
print '苑昊' # 苑昊
print repr('苑昊')#'\xe8\x8b\x91\xe6\x98\x8a'
print (u"hello"+"yuan")
#print (u'苑昊'+'最帅') #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6
# in position 0: ordinal not in range(128)
最后一个出错的原因:数据是ASCII的话,就能解码成功,如果出现非ASCII码的话,就会解码失败,造成UnicodeDecodeError 的错误
Python 2 悄悄掩盖掉了 byte 到 unicode 的转换,让程序在处理 ASCII 的时候更加简单。你复出的代价就是在处理非 ASCII 的时候将会失败。
#coding:utf8
u = u'苑'
print repr(u) # u'\u82d1'
# print str(u) #UnicodeEncodeError
s = u.encode('utf8')
print repr(s) #'\xe8\x8b\x91'
print str(s) # 苑
u2 = s.decode('utf8')
print repr(u2) # u'\u82d1'
四:Python3.*编码
Python3.*中也有两种类型,一种是Unicode,一种是byte,普通本文转换为"str类型"后存储的是Unicode,"bytes类型"存储的是byte串,也可以通过 b来制造byte串
在这个版本中严格区分了unicode和byte,不能拼接字符串和字节串,这两者之间不能进行任何操作
特点:不会将bytes数据解码为Unicode字符串,Python2.*中有隐式处理
#print('alvin'+u'yuan')#字节串和unicode连接 py2:alvinyuan
print(b'alvin'+'yuan')#字节串和unicode连接 py3:报错 can't concat bytes to str
转换过程
import json
s='苑昊'
print(json.dumps(s)) #"\u82d1\u660a"
b1=s.encode('utf8')
print(b1,type(b1)) #b'\xe8\x8b\x91\xe6\x98\x8a' <class 'bytes'>
print(b1.decode('utf8'))#苑昊
# print(b1.decode('gbk'))# 鑻戞槉
b2=s.encode('gbk')
print(b2,type(b2)) #'\xd4\xb7\xea\xbb' <class 'bytes'>
print(b2.decode('gbk')) #苑昊
与明文直接对应的就是Unicode数据,打印Unicode数据就会显示对应的明文(包括英文和中文)
五:编码实现
默认编码
解释器解释代码的时候默认的编码方式,在Python2.*中默认的编码方式为ASCII,在Python3.*中默认的编码方式为UTF8,(sys.getdefaultencoding()查看)
所以为了在Python2.*中出现中文时,需要加上如下声明
#-*- coding: UTF-8 -*-
#或者
#coding:utf8
注意:声明的编码必须和文件实际保存时用的编码一致,否则可能出现解析异常。IDE一般会自动处理这种情况,但是文本编辑器(notepad++)要自己选择保存的格式。
文件的保存和执行过程
字符串在内存中是以unicode的数据形式保存的,例如在pycharm中创建一个hello.py文件
print('hello 苑昊')
1.该文件已经被pycharm以默认的文件保存编码方式utf8存到了硬盘(二进制数据)
2.点击运行的时候,其实首先需要打开这个文件,然后将所有的数据转移到内存,字符串此时就以unicode的数据格式存到内存的某块地址上
3.其它内容还是utf8的编码方式,然后解释器就可以按着默认的utf8的编码方式逐行解码成Unicode(全部数据 )
4.解释器把Unicode交给CPU去执行,结果是一堆二进制数据
5.然后操作系统把这些数据编码成utf8或者gbk
六:print都做了什么
在Python 2中,print是一个语句(statement);而在Python 3中变成了函数(function)
print语句
print A==sys.stdout.write(str(A) + '\n')
print A, B, C==sys.stdout.write(' '.join(map(str, [A, B, C])) + '\n')
print函数
import sys
def print(*objects, sep=None, end=None, file=None, flush=False):
"""A Python translation of the C code for builtins.print().
"""
if sep is None:
sep = ' '
if end is None:
end = '\n'
if file is None:
file = sys.stdout
file.write(sep.join(map(str, objects)) + end)
if flush:
file.flush()
print函数比print语句能够指定分隔符(separator)和结束符(end string)
七:常见编码错误
cmd下乱码问题
hello.py
#coding:utf8
print('苑浩')
文件保存的时候编码为utf8
在IDE下2和3都正确,但是在cmd.exe中3正确,2乱码?
当我们使用Python2 hello.py在cmd中执行时,Python2解释器(默认ASCII码)去按声明的utf8编码文件,而文件又是以utf8保存的,所以没有问题;问题出现在当我们print ('苑浩')时,解释器这边正常执行,不会报错,只是print的内容也会传递给cmd.exe显示,在Python2这个内容是utf8编码的字节数据,而这个软件默认的编码解码方式是GBK,所以cmd.exe用GBK解码的方式去接utf8码自然会乱码。
Python3正确的原因是传递给cmd的是Unicode数据,能正常解码
改为print(u'苑浩') cmd下用Python2也不会有问题了
print ('苑昊') #苑昊
print (['苑昊','yuan']) #['苑昊', 'yuan']
print问题
Python2.*中
#coding:utf8
print ('苑昊') #苑昊
print (['苑昊','yuan']) #['\xe8\x8b\x91\xe6\x98\x8a', 'yuan']
Python3.*中
print ('苑昊') #苑昊
print (['苑昊','yuan']) #['苑昊', 'yuan']