用于解析.doc文件的Ruby库?

问题描述:

我只是想知道是否有人知道任何好的库解析.doc文件(和类似的格式,如.odt)来提取文本,但也保持格式信息尽可能显示在网站上。用于解析.doc文件的Ruby库?

对PDF进行类似操作的能力会是一种奖励,但我并没有那么看。

这是一个Rails项目,如果有帮助的话。

在此先感谢!

Apache的POI是访问Word和Excel文档的非常流行的方式。有一个Ruby POI binding这可能是值得研究的,但看起来你必须自己构建它。而且这个API看起来不像Ruby,因为它实际上是Java代码中的一个直接端口。它似乎只是针对Ruby 1.8.2进行了测试。

+0

非常感谢链接;我会研究这个。 (+1) – 2010-05-20 21:12:27

+0

@PlatinumAzure 2010年以来有什么变化?谢谢。 – Nishant 2012-04-18 16:59:20