字符编码和字符集

编码和解码:按照某种规则,将字符存储到计算机中,称为【编码】 ;那么,将计算机中的二进制数据按照某种规则解析显示出来,称为【解码】。

【字符编码】就是一套自然语言的字符和二进制数据之间的对应规则。

把这种对应规则,写成一张表,就是【编码表,也叫字符集】。包括了各国家文字、标点符号、图形符号、数字等自然语言字符和二进制的对照。常见的有ASCLL编码表(最基本的)、GBK编码表(中国专用的)、UTF-8编码表(世界通用的)。

注意,按照哪种规则来编码就只能按照哪种规则来解码,否则会出现乱码。

字符编码和字符集

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。

java中默认使用的是Unicode编码集。