确定JavaScript中的所有ISO 15924脚本代码字符串

问题描述:

我正在寻找一种有效的方法来获取JavaScript字符串并返回发生在该字符串中的所有scripts确定JavaScript中的所有ISO 15924脚本代码字符串

必须正确处理包括需要代理对的“星”平面/非BMP字符的完整UTF-16。这可能是主要问题,因为JavaScript不是UTF-16。

它只需要处理代码点,因此不需要复杂脚本或字形集群的花哨意识。 (这将是明显的一些你啦。)

例子:

stringToIso15924("παν語"); 

将返回类似:

[ "Grek", "Hani" ] 

我如何使用Node.js和一些Unicode的库如XRegExpunorm已经所以我不介意添加其他可能已经处理或缓解此功能的库。

我不知道可以查找字符属性(如脚本代码)的JavaScript库,因此这可能是问题的第二部分。

问题的第三部分只是为了避免效率低下。

+0

是否有任何可以引用UTF-16字符(通过其代码)映射到脚本代码的源(即表)? – 2013-05-09 01:51:16

+0

我想我找到了一个Unicode字符的Script属性如何与ISO 15924相关的故事的开始。http://unicode.org/reports/tr24/#Relation_To_ISO15924 – minopret 2013-05-09 01:52:25

+0

@PaulS。我不知道是否有一些源代码已经为JavaScript准备好了,但在Unicode网站上有原始的[UnicodeData.txt](http://www.unicode.org/Public/UNIDATA/UnicodeData.txt)在过去用Python和Perl进行处理。 – hippietrail 2013-05-09 01:59:57

我回答了a similar question,以及至少有关。在this pastebin中,您将会返回一个(looooong)函数,它返回一个字符的脚本名称。应该很容易修改它以适应字符串。

+1

适用于Guiness这个功能呢?谢谢! – 2015-12-27 20:11:27

+0

Lol no。我很确定有更长的... – dda 2015-12-28 07:36:49