使用Lucene为Symfony索引PDF文件

问题描述:

我是Symfony开发人员,我的Web服务器是Linux。我已经使用sfLucene插件。使用Lucene为Symfony索引PDF文件

索引PDF文件在Linux PHP服务器上搜索的最简单方法是什么?

  1. XPDF,通过SOLR sfLucene plugin branch
  2. 第3选项安装like this
  3. Apache Tika

谢谢!

来自Zend背景,我通常推荐使用Zend_Search_Lucene。 XPDF的例子非常简单,看起来很简单。 XPDF被授权为GPL - 如果这符合您的需求,请参加#1!

ZF很容易集成到您的Symfony项目中,例如,为Twitter Call

有很多从PDF中提取文本内容的库。有了这些,你就需要创建一个包含内容的lucene文档。最有用的将是那些已经有lucene集成。

阿帕奇PDFBox可以create a lucene文件直接从PDF文件。它将包含PDF元数据字段以及文本内容。