一句话一张图 说清unicode 和 utf8

 

unicode 是 字符的编码值,utf8是unicode 在计算机具体的存储方式

 

再举个例子,用一张图解释一下就清楚了

一句话一张图 说清unicode 和 utf8

"中"的unicode 是 4E2D, 但不能在计算机中直接保存,计算机怎么知道这是两个字节的中文啊

 

所以,使用utf8 编码格式,保存为三个字节: 1110               10                     10                   

  把unicode值4E2D   填充在空格的地方,正好 16个bit  , 得到了 E4 B8 AD