用精炼的语言详解字符编码及字符集(ASCII、ISO8859、GBK、Unicode、UTF-8...)

字符编码

计算机中储存的信息都是用二进制数表示的 而在屏幕上看到的数字 英文 标点符号 汉字等字符是二进制数转换之后的结果

按照某种规则将字符存储到计算机中的操作称为编码
反之 将存储在计算机中的二进制数按照某种规则解析显示出来的操作称为解码
例如 按照A规则存储 同样按照A规则解析 那么就能显示正确的文本符号
反之 按照A规则存储 再按照B规则解析 就会导致乱码现象

字符编码(Character Encoding): 一套自然语言的字符与二进制数之间的对应规则

字符集

字符集(Charset):也叫编码表 是一个系统支持的所有字符的集合
包括各国家文字 标点符号 图形符号 数字等

计算机要准确存储和识别各种字符集符号需要进行字符编码 一套字符集必然至少有一套字符编码
常见字符集有ASCII字符集 GBK字符集 Unicode字符集等
用精炼的语言详解字符编码及字符集(ASCII、ISO8859、GBK、Unicode、UTF-8...)
如上图 当指定了编码 它所对应的字符集自然就指定了 所以编码才是最终要关心的


编码及对应字符集:

一、ASCII字符集

ASCII(American Standard Code for Information Interchange 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统
用于显示现代英语 主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符、阿拉伯数字和西文符号)

基本的ASCII字符集(用于表示正数) 使用7位(bits)表示一个字符 共128字符
ASCII的扩展字符集(用于表示负数) 使用8位(bits)表示一个字符 共256字符 可以很方便地支持欧洲常用字符

二、ISO-8859-1字符集

拉丁码表 别名Latin-1 用于显示欧洲使用的语言 包括荷兰 丹麦 德语 意大利语 西班牙语等

ISO-5559-1使用单字节编码 兼容ASCII编码

三、GB字符集

GB就是国标的意思 是为了显示中文而设计的一套字符集

1、GB2312

★ 简体中文码表

一个小于127的字符的意义与原来相同 但两个大于127的字符连在一起时就表示一个汉字 这样大约可以组合包含7000多个简体汉字
此外 数学符号 罗马希腊的字母 日文的假名都编进去了 连在ASCII里本来就有的数字 标点 字母都统统重新编了两个字节长的编码
这就是常说的全角字符 而原来在127号以下的那些就叫半角字符了

2、GBK

★ 最常用的中文码表

是在GB2312标准基础上的扩展规范 使用了双字节编码方案 共收录了21003个汉字
完全兼容GB2312标准 同时支持繁体汉字以及日韩汉字等
(Windows系统中文默认编码)

3、GB18030

★ 最新的中文码表

收录汉字70244个 采用多字节编码 每个字可以由1个 2个或4个字节组成
支持中国国内少数民族的文字 同时支持繁体汉字以及日韩汉字等

四、Unicode字符集

Unicode编码系统为表达任意语言的任意字符而设计 是业界的一种标准 也称为统一码 标准万国码

它最多使用4个字节的数字来表达每个字母 符号 或者文字
有三种编码方案:UTF-8 UTF-16和UTF32
最为常用的是UTF-8编码

UTF-8编码可以用来表示Unicode标准中任何字符
它是电子邮件 网页及其他存储或传送文字的应用中优先采用的编码
互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码 因此开发Web应用也要使用UTF-8编码

它使用一至四个字节为每个字符编码

编码规则:
1、128个US-ASCII字符 只需一个字节编码
2、拉丁文等字符 需要二个字节编码
3、大部分常用字(含中文) 使用三个字节编码
4、其他极少使用的Unicode辅助字符 使用四个字节编码