是否可以使用StanfordCoreNLP在使用预先存在的标记化时获取选区解析?

问题描述:

根据这篇文章的标题,我想知道是否有可能使用StanfordCoreNLP获得选区的文本解析,同时使用预先存在的,可能外在提供的文本标记。我正在用法语写文章。我猜如果可能的话,只需要包含描述标记的文件就可以了,因为文本的一个版本可以从这个文件重建。 我想如果有人用java编程并直接使用java类,但由于我不太了解java,我想知道这样的事情是否可以使用命令行指令。 有没有人知道这样的事情?是否可以使用StanfordCoreNLP在使用预先存在的标记化时获取选区解析?

我搜索了谷歌搜索这个问题的答案,并浏览了StanfordCoreNLP网站(https://nlp.stanford.edu/),特别是此页https://nlp.stanford.edu/software/,但没有找到我要找的东西。在寻找获取软件相关信息的方法时,我发现我们被告知在*上提出问题。

现在为了我的问题的精确表述:有没有一种方法使用StanfordCoreNLP与命令行界面,以获得用法语写成的文本的选民分析信息,同时强制StanfordCoreNLP尊重预先存在的,输入该文本的标记?如果答案是肯定的,我可以在哪里记录我自己的这种方式?

编辑: 例子: 我会提供这样的事情一个例子是在用英文写的文字完成:

原始文本: «约翰在旅途中去;这很不错。 »

标记文: «约翰去旅行;这很不错。 » (这里,从原始文本的区别是,标点符号被从它们各自的前面的单词分隔)的文本的

选区解析: «(ROOT(S(NP(NNP约翰))(VP( VBD去了)(PP(IN on)(NP(NP(DT a)(NN trip))(:)(SBAR(WHNP(WDT which))(S(VP(VBD was))(ADJP(RB quite) JJ nice))))))))()。)))»

正如您所看到的,选区解析可以看作是标记化步骤结果的注释。我现在知道如何使用StanfordCoreNLP套件通过提供原始文本来计算选区分析信息以及其他类型的信息,但我想,为了实现这一点,StanfordCoreNLP套件将执行自己的标记化步骤。

我想知道是否有办法强制StanfordCoreNLP套件使用/尊重法语文本的预定义标记。

编辑2:

感谢您的回答。顺便说一下,这让我了解了如何使用命令行中的“{annotator_name}。{option_name}”格式来参数化在StanfordCoreNLP管道处理过程中使用的不同注释器;所以下次我可以在浏览时更好地了解StanfordCoreNLP的文档。

+0

有几点意见可以改善您的问题,从而帮助他人回答问题: 1.举例说明您想实现的目标。 2.写下你已经尝试过的方法。 3.总结你想问的问题并把它放在最后。对这个问题要非常具体。 – FacePalm

使用tokenize.whitespace选项,并提供由空白标记的文本。该选项只会创建由空格分隔的单词。