Unicode 和 UTF-8 之间的转换关系备注

Unicode 和 UTF-8 之间的转换关系备注

关于UTF-8,*的这篇文章讲的非常明了。UTF-8

需要备注的是,如果Unicode码转换成二进制后的位数不足时,一定要补位。 比如“©”,U+00A9 = 1010 1001 (copyright sign)。占2个字节,使用110xxxxx 10xxxxxx 形式填充。有11位需要填充,而转换后的只有8位,所以左边补上三位 000 1010 1001。

转换成UTF-8的形式 11000010 10101001 = 0xC2 0xA9

转载于:https://my.oschina.net/u/134408/blog/879499