确定JavaScript中的所有ISO 15924脚本代码字符串
我正在寻找一种有效的方法来获取JavaScript字符串并返回发生在该字符串中的所有scripts。确定JavaScript中的所有ISO 15924脚本代码字符串
必须正确处理包括需要代理对的“星”平面/非BMP字符的完整UTF-16。这可能是主要问题,因为JavaScript不是UTF-16。
它只需要处理代码点,因此不需要复杂脚本或字形集群的花哨意识。 (这将是明显的一些你啦。)
例子:
stringToIso15924("παν語");
将返回类似:
[ "Grek", "Hani" ]
我如何使用Node.js和一些Unicode的库如XRegExp和unorm已经所以我不介意添加其他可能已经处理或缓解此功能的库。
我不知道可以查找字符属性(如脚本代码)的JavaScript库,因此这可能是问题的第二部分。
问题的第三部分只是为了避免效率低下。
我回答了a similar question,以及至少有关。在this pastebin中,您将会返回一个(looooong)函数,它返回一个字符的脚本名称。应该很容易修改它以适应字符串。
适用于Guiness这个功能呢?谢谢! – 2015-12-27 20:11:27
Lol no。我很确定有更长的... – dda 2015-12-28 07:36:49
是否有任何可以引用UTF-16字符(通过其代码)映射到脚本代码的源(即表)? – 2013-05-09 01:51:16
我想我找到了一个Unicode字符的Script属性如何与ISO 15924相关的故事的开始。http://unicode.org/reports/tr24/#Relation_To_ISO15924 – minopret 2013-05-09 01:52:25
@PaulS。我不知道是否有一些源代码已经为JavaScript准备好了,但在Unicode网站上有原始的[UnicodeData.txt](http://www.unicode.org/Public/UNIDATA/UnicodeData.txt)在过去用Python和Perl进行处理。 – hippietrail 2013-05-09 01:59:57