什么是一个很好的自然语言库用于释义?

问题描述:

我正在寻找一个现有的图书馆来总结或转述内容(我瞄准博客文章) - 任何与现有的自然语言处理库的经验?什么是一个很好的自然语言库用于释义?

我对各种语言开放,所以我对&精度更感兴趣。

你进入真正遥远的AI类型域。我主要使用Attempto Controlled English(参见:http://attempto.ifi.uzh.ch/site/)将文本转换为机器知识,这是一种自然语言(英语),可以完全计算机处理成几种不同的本体,例如OWLDL。

好像那会我们的方式矫枉过正,但...

是否有不只是把你的博客文章的前几句,然后追加为您总结的椭圆理由吗?

感谢您的链接。看起来GROK已经死了 - 但它仍然可以用于我的目的。

2个环节:

的Attempto控制的英语是一个有趣的概念:因为它是在看问题的一个完全相反的方式。对于我正在尝试做的事情来说,这不是很实际。

@mmattax关于采取几句话的建议 - 我不想提出一个总结:否则这将是一个不错的judo解决方案。我期望实际总结出用于其他评估目的的内容。

可能想尝试门或闭源的,专有的和昂贵的TextAnalyst COM API

我认为他想通过自动意译无论是它的博客,该系统监控产生的博客文章。

如果您可以合并2到10篇类似但来自不同来源的博客文章,然后自动完成释义的“真实”摘要(1篇博文的大小),这将非常有趣。

它也可能是伟大的Homeworks。不幸的是,这并不容易。

我能看到的唯一方法是能够将每个句子分解为“意义”,然后随机更改句子结构和一些保留意义的单词。

这些句子的意思是相同的:

  • 我讨厌这个家伙,他是如此的愚蠢。
  • 这家伙很蠢,我讨厌他。
  • 我鄙视这个笨蛋。
  • 他很笨,我恨他。

编写一个程序将其中的一个句子转换成其他句子并不重要,这些都是简单的句子,来自博客的真正句子要复杂得多。

有一些关于Grok的讨论。现在OpenCCG支持这一功能,并且将在OpenNLP中重新实现。

你可以在http://openccg.sourceforge.net/找到OpenCCG。我也建议Curran和Clark CCG解析器可以在这里找到:http://svn.ask.it.usyd.edu.au/trac/candc/wiki

基本上,对于解释,你需要做的是写一些东西,首先解析博客帖子的句子,提取这些语义的含义然后搜索词汇空间,这些词汇在组成方面会创建相同的语义,然后选择一个与当前句子不匹配的词汇。这将需要很长时间,并且可能没有多大意义。不要忘记,为了做到这一点,你需要接近完美的照应解决方案,并有能力选择话语层面的推论。

如果您只是想让博客文章没有机器可识别的重复内容,您可以随时使用主题和焦点转换以及WordNet同义词。肯定有一些网站已经从AdWords中赚了钱,而这些都是以前做过的。