有没有可以通过pdf文件打开和搜索的库？

问题描述：

有没有可以打开和搜索PDF文件的库？最好在C，蟒蛇或红宝石...有没有可以通过pdf文件打开和搜索的库？

重复：http://*.com/questions/58730/open-source-pdf-library-for-c-c-application – 2009-11-11 02:12:19

@Jurily。你链接到的问题是关于生成PDF文件。这个问题是关于检查PDF的内容。它们不是重复的。 – 2009-11-11 02:23:43

试过谷歌？ '阅读PDF文件库蟒蛇C红宝石给我结果 – mrk 2014-05-20 23:15:57

答

有从PDF文件中提取文本的各种库。这有点缺乏“搜索”，但应该很容易做到。

对于Ruby尝试PDF::Toolkit。

对于Python有pyPdf：

pdf = pyPdf.PdfFileReader(file(path, "rb")) 
content = pdf.getPage(1).extractText()

答

我已经研究了使用Apache PDFBox类似的东西，但从未结束使用它。这是一个Java库，但Java在其他语言中表现良好。

答

这红宝石GNOME库有一个子库调用poppler的渲染PDF文件。 http://ruby-gnome2.sourceforge.jp/hiki.cgi?Ruby%2FPoppler

它也可以提取pdf的部分作为文本。它也可以在pdf文档中找到包含要搜索的文本的矩形。这些方法在“页面”类中。

希望这有助于