用tika为apache solr解析数据
问题描述:
我设法让apache nutch索引新闻网站并将结果传递给Apache solr。用tika为apache solr解析数据
使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup唯一的区别是我决定改用Cassandra。
作为一个测试,我试图抓取Cnn,以提取出文章的标题和它的发布日期。
问题1:
如何从网页解析数据,提取日期和标题。
我已经找到这篇文章的插件。这似乎有点过时,并不确定它仍然适用。我也读过Tika也可以使用,但大多数教程都很旧。
http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/
另一个SO制品是本
How to extend Nutch for article crawling。我宁愿使用Nutch,只是因为那是我开始的。我真的没有偏好。
任何事情都会很有帮助。
答
Norconex HTTP Collector将与您的文档一起存储所有可能找到的元数据,而不受限制。范围从下载页面时获得的HTTP Header值到该HTML页面中的所有标签。
这可能对你来说太多了。如果是这样,你可以拒绝那些你不想要的,或者替代,从而明确了解您想要保留在你的配置中添加了“KeepOnlyTagger”你<importer>
部分的:
<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger"
fields="title,pubdate,anotherone,etc"/>
你会发现如何以快速开始配置选项在这里:http://www.norconex.com/product/collector-http/configuration.html
是您的主要问题只抓住特定的HTML元数据字段(如“pubdate”和“标题”)? – 2014-10-29 03:43:12
是的,我想索引他们在solr。 – user3279550 2014-10-29 20:42:05
你的意思是nutch索引只有一些字段,但标题,日期字段不会索引到solr的权利? – Kumar 2014-10-31 04:03:14