如何开始使用信息提取？

问题描述：

当谈到信息提取时，我是一个新手。在过去的几天里，我读了很多学术论文，并订购了一本有关NLP的书。我想弄清楚如何构建一个FlipDog.com系统（希望不是从头开始）。他们从超过60,000家公司网站提取职位空缺。我如何开始？如何开始使用信息提取？

我很乐意学习任何编程语言。有没有人使用过Mallet/GATE/MinorThird或RoadRunner？理想情况下，我希望能够训练具有特定于我的域的数据集的系统，并根据此信息提取信息。你会为此推荐哪个平台？

谢谢！

答

提取工作提供的更快方式是使用dapper.net（来自网站的Web scraping服务）。你可以很容易地教导精灵使用可视化编辑器提取数据。它在你的目标网站上有表格时效果很好。

要学习信息提取，我建议从lingpipe开始。它是用于信息抽取的Java框架，因此您不需要学习框架的特定架构特性，例如Gate或Apache UIMA。在lingpipe网站上，你会发现很多教程，这将帮助你学习各种信息提取方法。之后我建议学习Gate和UIMA。

如果要实现这样的网站，你还需要学习如何使用网络爬虫框架（如nutch），网络搜索引擎（yahoo, google, bing），以及信息检索引擎（如，apache lucene）提供搜索服务的提取数据的顶部。

更新：

对于蟒蛇，它是最好的开始：http://www.nltk.org/

非常感谢！我会开始看着小巧玲珑 – smitten11 2010-10-03 22:46:00