使用NLTK的块/文本解析

问题描述:

我想解析一些文本和图,就像你会一句话。我是NLTK的新手,并试图在NLTK中找到一些能够帮助我完成这一任务的东西。到目前为止,我已经看到nltk.ne_chunknltk.pos_tag。我发现他们不是很有帮助,我无法找到任何好的在线文档。使用NLTK的块/文本解析

我也尝试过使用LancasterStemmer,但我不完全理解它的作用,应该如何使用或者为什么它应该存在。

有人能帮我解决这个问题吗?没有任何指导性的灯光,我真的感到茫然,而且很沮丧。

在此先感谢

+0

你究竟想完成什么?你是否真的需要语义分析,或者简单的词法分析?你试图制作的digram是什么? – 2009-11-08 05:58:31

+0

最终,我希望能够创建一个代表文本中数据的“树”。一旦我完成了这个工作,那么我可以对另一段文本做相同的处理(就同一主题 - 说一个演讲),然后比较两者是相似/不同的,并纳入差异。这可以最终产生一个“树”,该树具有最精确的演讲代表 – inspectorG4dget 2009-11-08 18:57:33

你所描述实际上是一个很艰难的任务,因为在最后,你的程序是成功还是失败完全是一个主观的措施。在这种情况下,通常意味着构建一个解决问题的计划是困难的。在大学里,有些人为了解决这些问题而得到报酬。

如果你想刺激它,我会建议尝试使用某种自动词法分析工具,而不是尝试手动解析和注释,然后利用你的分析树。通常,分析树代表句法分析,即句子的结构。另一方面,你关心的是语义分析,也就是说它的含义 - 或者至少两个句子是相似还是不同(实际上它比某种方式更容易一些)。

您可以查看一些现成的自动汇总工具。这些尝试通过对一段文本的重要性来判断句子,并筛选出不如指定阈值重要的句子。这并不是说这对你有很大的帮助,因为你仍然有需要合并摘要的问题。

+0

谢谢。现在,我试图获取句子的句法结构,以便稍后可以进行语义分析。请告诉我,如果我走错了方向,因为我仍然是一名学生,并不是专家,并且会很感激这样的反馈。 无论哪种情况,你会推荐任何特定的nltk工具/模块来帮助解决这个问题吗? – inspectorG4dget 2009-11-09 02:01:19

+0

如果我要完成这项任务,我不确定是否会麻烦解析。我认为你最好使用统计方法,通常使用一袋文字方法(或类似方法)。这就是它的意思,只是把每个句子当成一堆文字,而不是担心文字的位置。一些可能帮助你的技术是基于聚类的方法,可能还有TF-IDF。也许阅读这些内容,看看你是否认为他们可以帮助你。 NLTK有这两个模块。 – nedned 2009-11-09 02:54:35

+0

谢谢你谦虚的咖啡。是否有可能,你可以指向我的任何特定的nltk模块?也许你用过并认为可能适合我的问题? – inspectorG4dget 2009-11-16 00:11:39