五：编码实现

六：print都做了什么

七：常见编码错误

一：前言

之前写过一个编码的历史，点这里，在不同语言中还是有不同的做法，最近在学习Python，就把Python中的编码问题详细写一遍，巩固一下基础知识

二：什么是编码

人类可以直接理解，易懂的信息称为"明文"(plain text)，对于说英语的人，纸张上打印的或者屏幕上显示的英文单词都算是明文,从明文到编码文本转换称为"编码"(encode)，从编码文本转换为明文则称为"解码"(decode)

三：Python2.*编码

有两种类型，一种是str,一种是unicode,这两个都是basestring的子类

str是字节串，是Unicode经过编码后的字节组成的序列。对UTF-8编码的str'苑'使用len()函数，结果是3，因为utf8编码的'苑' == '\xe8\x8b\x91'

unicode是一个字符串，unicode才是真正意义上的字符串，len(u'苑')==1

在Python2.*中，str=bytes

特点：自动将bytes数据解码为Unicode字符串

#coding:utf8

print '苑昊' #  苑昊    
print repr('苑昊')#'\xe8\x8b\x91\xe6\x98\x8a'

print (u"hello"+"yuan")

#print (u'苑昊'+'最帅')   #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6
                        # in position 0: ordinal not in range(128)

最后一个出错的原因：数据是ASCII的话，就能解码成功，如果出现非ASCII码的话，就会解码失败，造成UnicodeDecodeError 的错误

Python 2 悄悄掩盖掉了 byte 到 unicode 的转换，让程序在处理 ASCII 的时候更加简单。你复出的代价就是在处理非 ASCII 的时候将会失败。

关于Python2.*和Python3.*的编码解码问题

#coding:utf8
 
u = u'苑'
print repr(u)  # u'\u82d1'
# print str(u)   #UnicodeEncodeError
 
s = u.encode('utf8')
print repr(s) #'\xe8\x8b\x91'
print str(s)  #  苑   
u2 = s.decode('utf8')
print repr(u2) # u'\u82d1'

四：Python3.*编码

Python3.*中也有两种类型，一种是Unicode，一种是byte，普通本文转换为"str类型"后存储的是Unicode，"bytes类型"存储的是byte串，也可以通过 b来制造byte串

在这个版本中严格区分了unicode和byte，不能拼接字符串和字节串，这两者之间不能进行任何操作

关于Python2.*和Python3.*的编码解码问题

特点:不会将bytes数据解码为Unicode字符串，Python2.*中有隐式处理

#print('alvin'+u'yuan')#字节串和unicode连接 py2:alvinyuan
print(b'alvin'+'yuan')#字节串和unicode连接 py3:报错 can't concat bytes to str

转换过程

import json

s='苑昊'
print(json.dumps(s))   #"\u82d1\u660a"
b1=s.encode('utf8')

print(b1,type(b1))     #b'\xe8\x8b\x91\xe6\x98\x8a' <class 'bytes'>

print(b1.decode('utf8'))#苑昊
# print(b1.decode('gbk'))# 鑻戞槉

b2=s.encode('gbk')
print(b2,type(b2))  #'\xd4\xb7\xea\xbb' <class 'bytes'>
print(b2.decode('gbk')) #苑昊

与明文直接对应的就是Unicode数据，打印Unicode数据就会显示对应的明文(包括英文和中文)

五：编码实现

默认编码

解释器解释代码的时候默认的编码方式，在Python2.*中默认的编码方式为ASCII，在Python3.*中默认的编码方式为UTF8,(sys.getdefaultencoding()查看)

所以为了在Python2.*中出现中文时，需要加上如下声明

#-*- coding: UTF-8 -*-
#或者
#coding:utf8

注意：声明的编码必须和文件实际保存时用的编码一致，否则可能出现解析异常。IDE一般会自动处理这种情况，但是文本编辑器（notepad++）要自己选择保存的格式。

文件的保存和执行过程

字符串在内存中是以unicode的数据形式保存的，例如在pycharm中创建一个hello.py文件

print('hello 苑昊')

1.该文件已经被pycharm以默认的文件保存编码方式utf8存到了硬盘(二进制数据)

2.点击运行的时候，其实首先需要打开这个文件，然后将所有的数据转移到内存，字符串此时就以unicode的数据格式存到内存的某块地址上

3.其它内容还是utf8的编码方式，然后解释器就可以按着默认的utf8的编码方式逐行解码成Unicode（全部数据）

4.解释器把Unicode交给CPU去执行，结果是一堆二进制数据

5.然后操作系统把这些数据编码成utf8或者gbk

六：print都做了什么

在Python 2中，print是一个语句（statement）；而在Python 3中变成了函数（function）

print语句

print A==sys.stdout.write(str(A) + '\n')

print A, B, C==sys.stdout.write(' '.join(map(str, [A, B, C])) + '\n')

print函数

import sys

def print(*objects, sep=None, end=None, file=None, flush=False):
    """A Python translation of the C code for builtins.print().


"""
    if sep is None:
        sep = ' '
    if end is None:
        end = '\n'
    if file is None:
        file = sys.stdout
    file.write(sep.join(map(str, objects)) + end)
    if flush:
        file.flush()

print函数比print语句能够指定分隔符(separator)和结束符(end string)

七：常见编码错误

cmd下乱码问题

hello.py

#coding:utf8
print('苑浩')

文件保存的时候编码为utf8

在IDE下2和3都正确，但是在cmd.exe中3正确，2乱码？

当我们使用Python2 hello.py在cmd中执行时，Python2解释器(默认ASCII码)去按声明的utf8编码文件，而文件又是以utf8保存的，所以没有问题；问题出现在当我们print ('苑浩')时，解释器这边正常执行，不会报错，只是print的内容也会传递给cmd.exe显示，在Python2这个内容是utf8编码的字节数据，而这个软件默认的编码解码方式是GBK，所以cmd.exe用GBK解码的方式去接utf8码自然会乱码。

Python3正确的原因是传递给cmd的是Unicode数据，能正常解码

改为print(u'苑浩') cmd下用Python2也不会有问题了

print ('苑昊') #苑昊
print (['苑昊','yuan']) #['苑昊', 'yuan']

print问题

Python2.*中

#coding:utf8
print ('苑昊') #苑昊
print (['苑昊','yuan']) #['\xe8\x8b\x91\xe6\x98\x8a', 'yuan']

Python3.*中

print ('苑昊') #苑昊
print (['苑昊','yuan']) #['苑昊', 'yuan']

关于Python2.*和Python3.*的编码解码问题

一：前言

二：什么是编码

三：Python2.*编码

四：Python3.*编码

五：编码实现

六：print都做了什么

七：常见编码错误

相关推荐

关于Python2.和Python3.的编码解码问题