关于中文和分词,计算机通讯的思考

关于中文和分词,计算机通讯的思考

 

  1. 中文分词 为什么不用四角号码呢(方块字四个角加一个补码)?

         10604 30104 22770 80221 26000 67127 12013 42913 44214 30112 12900 21182 27106 77217

          西塞山前白鹭飞,桃花流水鳜鱼肥.

          要知道中文的四角号码之间是有天然的联系的,比如词\成语等,对中文分池的查找和分类绝对有帮助吧

    2.计算机的底层是01,10,00,11 组成的二进制流,中文不能传输四角号码流吗?

      这样对传输和识别都很有帮助吧. 四角号码流组合变化更多,也有中国传下来的识别方法,比什么16进制,64位处理中文要          快一些吧