使用Apache Solr和Carrot2进行群集

问题描述：

对于Apache Solr和Carrot2，我都很新。我正在尝试使用Solr对很多输入文件进行索引。最终目标是对文档进行分组。使用Apache Solr和Carrot2进行群集

我不清楚聚类是由Solr还是由carrot2工作台完成的？

任何人都可以在这里指导我吗？

答

它可以通过两种方式完成。

在一个设置中，Carrot2 Workbench可以从Solr获取搜索结果（就像从任何其他搜索引擎一样）并对它们进行聚类。这条路线可能是最简单的开始，您只需提供Solr服务的URL和字段名称即可为群集提供内容。

或者，您可以在Solr中配置search results clustering plugin，它将在您的Solr服务器中执行群集，并将搜索结果群集包含为Solr搜索响应的一部分。

在这两种情况下，聚类都应用于文档的存储内容（原始文本），因此在Solr内聚集文档没有太大的性能优势，或许可以减少序列化/反序列化开销。

最后，有一个过时的文件澄清了两个Carrot2-Solr integration strategies。

我正在使用solr中的carrot2extension获取集群。默认情况下，它会计算前100个文档的集群。如果我尝试在请求失败的更多文档上执行此操作。你有解决这个问题的想法吗？ –