文件正文搜索

问题描述:

任何人都可以推荐一个很好的工具来搜索文件的正文(办公室,powerpoint等)。它需要作为PHP站点的一部分进行集成。或者,可用于创建搜索条件索引的任何服务器端应用程序。文件正文搜索

谢谢

看看Zend_Lucene。它支持分析Word,Powerpoint和Excel(2007)文档。

我知道如何获取正文的内容,但不知道搜索部分。这里是我使用的功能:

function body($file) { 
    $contents = file_get_contents($file); 
    $parts = explode("<body>", $contents); 
    $parts = explode("</body>", $parts[1]); 
    return $parts[0]; 
} 

当然,这只适用于身体标记没有任何属性。