用tika为apache solr解析数据

问题描述：

我设法让apache nutch索引新闻网站并将结果传递给Apache solr。用tika为apache solr解析数据

作为一个测试，我试图抓取Cnn，以提取出文章的标题和它的发布日期。

问题1：

如何从网页解析数据，提取日期和标题。

我已经找到这篇文章的插件。这似乎有点过时，并不确定它仍然适用。我也读过Tika也可以使用，但大多数教程都很旧。

另一个SO制品是本

How to extend Nutch for article crawling。我宁愿使用Nutch，只是因为那是我开始的。我真的没有偏好。

任何事情都会很有帮助。

是您的主要问题只抓住特定的HTML元数据字段（如“pubdate”和“标题”）？ – 2014-10-29 03:43:12

是的，我想索引他们在solr。 – user3279550 2014-10-29 20:42:05

你的意思是nutch索引只有一些字段，但标题，日期字段不会索引到solr的权利？ – Kumar 2014-10-31 04:03:14

答

Norconex HTTP Collector将与您的文档一起存储所有可能找到的元数据，而不受限制。范围从下载页面时获得的HTTP Header值到该HTML页面中的所有标签。

这可能对你来说太多了。如果是这样，你可以拒绝那些你不想要的，或者替代，从而明确了解您想要保留在你的配置中添加了“KeepOnlyTagger”你<importer>部分的：

<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger" 
    fields="title,pubdate,anotherone,etc"/>