如何开始使用信息提取?

问题描述:

当谈到信息提取时,我是一个新手。在过去的几天里,我读了很多学术论文,并订购了一本有关NLP的书。我想弄清楚如何构建一个FlipDog.com系统(希望不是从头开始)。他们从超过60,000家公司网站提取职位空缺。我如何开始?如何开始使用信息提取?

我很乐意学习任何编程语言。有没有人使用过Mallet/GATE/MinorThird或RoadRunner?理想情况下,我希望能够训练具有特定于我的域的数据集的系统,并根据此信息提取信息。你会为此推荐哪个平台?

谢谢!

提取工作提供的更快方式是使用dapper.net(来自网站的Web scraping服务)。你可以很容易地教导精灵使用可视化编辑器提取数据。它在你的目标网站上有表格时效果很好。

要学习信息提取,我建议从lingpipe开始。它是用于信息抽取的Java框架,因此您不需要学习框架的特定架构特性,例如Gate或Apache UIMA。在lingpipe网站上,你会发现很多教程,这将帮助你学习各种信息提取方法。之后我建议学习Gate和UIMA。

如果要实现这样的网站,你还需要学习如何使用网络爬虫框架(如nutch),网络搜索引擎(yahoo, google, bing),以及信息检索引擎(如,apache lucene)提供搜索服务的提取数据的顶部。

更新:

对于蟒蛇,它是最好的开始:http://www.nltk.org/

+0

非常感谢!我会开始看着小巧玲珑 – smitten11 2010-10-03 22:46:00