从网站提取数据
问题描述:
我想从网站提取数据。我已经从使用文章提取器的网站获得了信息,但是现在我想要获取关于特定地点事件的信息。我想获得的事件在那个地方的时候,我给定位为input.For例如,我想从该网站“http://www.indianevents.org/events-Rajasthan-14.htm”我可能是能够提取的所有事件中提取信息,节日等从网站提取数据
URL url;
url = new URL(str);
InputSource is = HTMLFetcher.fetch(url).toInputSource();
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
TextDocument doc = in.getTextDocument();
news=ArticleExtractor.INSTANCE.getText(doc);
答
- 考虑Apache Tika下载的文本内容
- 可以使用stanford pos tagger将文本解析成 有意义的句子
- 和NLP可以帮助识别事件信息。
虽然写这听起来可能听起来很简单(相信我很难)。 祝你好运。 :)
基本上你想解析输出?? –
是的,我想提取所有细节,如事件,节日,展览等,当我给特定的地方作为输入 – lulu