python(字符编码与转码)

一、字符编码演变史

  • 二进制(0 1)
    """
    算机中的所有数据,不论是文字、图片、视频、还是音频文件,本质上最终都是按照类似 01010101 的二进制存储的,再说简单点,计算机只懂二进制数字
    """
  • ASCII(只能存因为或者拉丁字符,其中一个字符占一个子节,一个字节8位)
    """
    256种不同状态,每种状态就唯一对应一个字符,比如A--->00010001
    """
  • gb2312()
    """
    计算机漂洋过海来到中国后,问题来了,计算机不认识中文,当然也没法显示中文;而且一个字节所有状态都被占满了,我党很棒,自力更生,自己重写一张表,直接生猛地将扩展的第八位对应拉丁文全部删掉,规定一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节
    (低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了;这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。
    """
  • gbk(支持20000多个汉字) 和 gb18030(支持27000多中文) 编码
  • unicode 
    """很多其它国家都搞出自己的编码标准,彼此间却相互不支持。这就带来了很多问题。于是,国际标谁化组织为了统一编码:提出了标准编码准
        则:UNICODE 。
        UNICODE是用两个字节来表示为一个字符,它总共可以组合出65535不同的字符,这足以覆盖世界上所有符号(包括甲骨文)
    """
  • utf-8
    """
    unicode都一统天下了,为什么还要有一个utf8的编码呢?
        大家想,对于英文世界的人们来讲,一个字节完全够了,比如要存储A,本来00010001就可以了,现在吃上了unicode的大锅饭,
        得用两个字节:00000000 00010001才行,浪费太严重!
        基于此,美利坚的科学家们提出了天才的想法:utf8.
        UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,它可以使用1~4个字节表示一个符号,根据
        不同的符号而变化字节长度,当字符在ASCII码的范围时,就用一个字节表示,所以是兼容ASCII编码的。
    
        这样显著的好处是,虽然在我们内存中的数据都是unicode,但当数据要保存到磁盘或者用于网络传输时,直接使用unicode就远不如utf8省空间啦!
        这也是为什么utf8是我们的推荐编码方式。
    
        Unicode与utf8的关系:
        一言以蔽之:Unicode是内存编码表示方案(是规范),而UTF是如何保存和传输Unicode的方案(是实现)这也是UTF与Unicode的区别。
    """

     

二、转码

1、python2.x 转码和解码

python(字符编码与转码)

#-*-coding:utf-8-*-

import sys
print(sys.getdefaultencoding())    #获取默认编码格式


msg = "我爱北京*"
msg_gb2312 = msg.decode("utf-8").encode("gb2312")
gb2312_to_gbk = msg_gb2312.decode("gbk").encode("gbk")

print(msg)
print(msg_gb2312)
print(gb2312_to_gbk)

 

2、python3.x 转码和解码

  • 在py3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string
import sys
print(sys.getdefaultencoding())


msg = "我爱北京*"
msg_gb2312 = msg.encode("gb2312") #默认就是unicode,不用再decode
gb2312_to_unicode = msg_gb2312.decode("gb2312")
gb2312_to_utf8 = msg_gb2312.decode("gb2312").encode("utf-8")

print(msg)
print(msg_gb2312)
print(gb2312_to_unicode)
print(gb2312_to_utf8)