使用NLTK的块/文本解析

问题描述：

我想解析一些文本和图，就像你会一句话。我是NLTK的新手，并试图在NLTK中找到一些能够帮助我完成这一任务的东西。到目前为止，我已经看到nltk.ne_chunk和nltk.pos_tag。我发现他们不是很有帮助，我无法找到任何好的在线文档。使用NLTK的块/文本解析

我也尝试过使用LancasterStemmer，但我不完全理解它的作用，应该如何使用或者为什么它应该存在。

有人能帮我解决这个问题吗？没有任何指导性的灯光，我真的感到茫然，而且很沮丧。

在此先感谢

你究竟想完成什么？你是否真的需要语义分析，或者简单的词法分析？你试图制作的digram是什么？ – 2009-11-08 05:58:31

最终，我希望能够创建一个代表文本中数据的“树”。一旦我完成了这个工作，那么我可以对另一段文本做相同的处理（就同一主题 - 说一个演讲），然后比较两者是相似/不同的，并纳入差异。这可以最终产生一个“树”，该树具有最精确的演讲代表 – inspectorG4dget 2009-11-08 18:57:33

答

你所描述实际上是一个很艰难的任务，因为在最后，你的程序是成功还是失败完全是一个主观的措施。在这种情况下，通常意味着构建一个解决问题的计划是困难的。在大学里，有些人为了解决这些问题而得到报酬。

如果你想刺激它，我会建议尝试使用某种自动词法分析工具，而不是尝试手动解析和注释，然后利用你的分析树。通常，分析树代表句法分析，即句子的结构。另一方面，你关心的是语义分析，也就是说它的含义 - 或者至少两个句子是相似还是不同（实际上它比某种方式更容易一些）。

您可以查看一些现成的自动汇总工具。这些尝试通过对一段文本的重要性来判断句子，并筛选出不如指定阈值重要的句子。这并不是说这对你有很大的帮助，因为你仍然有需要合并摘要的问题。

谢谢。现在，我试图获取句子的句法结构，以便稍后可以进行语义分析。请告诉我，如果我走错了方向，因为我仍然是一名学生，并不是专家，并且会很感激这样的反馈。无论哪种情况，你会推荐任何特定的nltk工具/模块来帮助解决这个问题吗？ – inspectorG4dget 2009-11-09 02:01:19

如果我要完成这项任务，我不确定是否会麻烦解析。我认为你最好使用统计方法，通常使用一袋文字方法（或类似方法）。这就是它的意思，只是把每个句子当成一堆文字，而不是担心文字的位置。一些可能帮助你的技术是基于聚类的方法，可能还有TF-IDF。也许阅读这些内容，看看你是否认为他们可以帮助你。 NLTK有这两个模块。 – nedned 2009-11-09 02:54:35

谢谢你谦虚的咖啡。是否有可能，你可以指向我的任何特定的nltk模块？也许你用过并认为可能适合我的问题？ – inspectorG4dget 2009-11-16 00:11:39

使用NLTK的块/文本解析

相关推荐