使用Apache Solr和Carrot2进行群集

问题描述:

对于Apache Solr和Carrot2,我都很新。我正在尝试使用Solr对很多输入文件进行索引。最终目标是对文档进行分组。使用Apache Solr和Carrot2进行群集

我不清楚聚类是由Solr还是由carrot2工作台完成的?

任何人都可以在这里指导我吗?

它可以通过两种方式完成。

在一个设置中,Carrot2 Workbench可以从Solr获取搜索结果(就像从任何其他搜索引擎一样)并对它们进行聚类。这条路线可能是最简单的开始,您只需提供Solr服务的URL和字段名称即可为群集提供内容。

或者,您可以在Solr中配置search results clustering plugin,它将在您的Solr服务器中执行群集,并将搜索结果群集包含为Solr搜索响应的一部分。

在这两种情况下,聚类都应用于文档的存储内容(原始文本),因此在Solr内聚集文档没有太大的性能优势,或许可以减少序列化/反序列化开销。

最后,有一个过时的文件澄清了两个Carrot2-Solr integration strategies

+0

我正在使用solr中的carrot2extension获取集群。默认情况下,它会计算前100个文档的集群。如果我尝试在请求失败的更多文档上执行此操作。你有解决这个问题的想法吗? –