有没有可以通过pdf文件打开和搜索的库?

问题描述:

有没有可以打开和搜索PDF文件的库?最好在C,蟒蛇或红宝石...有没有可以通过pdf文件打开和搜索的库?

+0

重复:http://*.com/questions/58730/open-source-pdf-library-for-c-c-application – 2009-11-11 02:12:19

+0

@Jurily。你链接到的问题是关于生成PDF文件。这个问题是关于检查PDF的内容。它们不是重复的。 – 2009-11-11 02:23:43

+0

试过谷歌? '阅读PDF文件库蟒蛇C红宝石给我结果 – mrk 2014-05-20 23:15:57

有从PDF文件中提取文本的各种库。这有点缺乏“搜索”,但应该很容易做到。

对于Ruby尝试PDF::Toolkit

对于Python有pyPdf

pdf = pyPdf.PdfFileReader(file(path, "rb")) 
content = pdf.getPage(1).extractText() 

我已经研究了使用Apache PDFBox类似的东西,但从未结束使用它。这是一个Java库,但Java在其他语言中表现良好。

这红宝石GNOME库有一个子库调用poppler的渲染PDF文件。 http://ruby-gnome2.sourceforge.jp/hiki.cgi?Ruby%2FPoppler

它也可以提取pdf的部分作为文本。它也可以在pdf文档中找到包含要搜索的文本的矩形。这些方法在“页面”类中。

http://ruby-gnome2.sourceforge.jp/hiki.cgi?Poppler%3A%3APage

希望这有助于