从网站提取数据

问题描述：

我想从网站提取数据。我已经从使用文章提取器的网站获得了信息，但是现在我想要获取关于特定地点事件的信息。我想获得的事件在那个地方的时候，我给定位为input.For例如，我想从该网站“http://www.indianevents.org/events-Rajasthan-14.htm”我可能是能够提取的所有事件中提取信息，节日等从网站提取数据

URL url; 
url = new URL(str); 
InputSource is = HTMLFetcher.fetch(url).toInputSource();  
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is); 
TextDocument doc = in.getTextDocument();  
news=ArticleExtractor.INSTANCE.getText(doc);

基本上你想解析输出?? –

是的，我想提取所有细节，如事件，节日，展览等，当我给特定的地方作为输入 – lulu

答

考虑Apache Tika下载的文本内容
可以使用stanford pos tagger将文本解析成有意义的句子
和NLP可以帮助识别事件信息。

虽然写这听起来可能听起来很简单（相信我很难）。祝你好运。 :)

相关推荐