将.odt .doc .ods文件转换为.txt文件

问题描述:

我想转换所有的.odt .doc文件。 .xls .pdf文件到.txt文件 我想使用shell脚本或perl脚本将这些文件转换为文本文件将.odt .doc .ods文件转换为.txt文件

OpenOffice具有内置的文档转换器,可以处理一堆格式 - 查看unoconv :http://dag.wieers.com/home-made/unoconv/

这就是说,我有一些麻烦让过去的工作 - 如果你有麻烦,看看AbiWord(另一个开源文字处理器)类似的程序。

这样做当然是可以的,尽管OO项目和它的文档有一些奇怪而难以理解的地方,使得这样的事情很难研究和遵循。但是,面向对象有能力转换所有这些类型,而不仅仅是OO本地类型,它可以通过两种不同形式的自动控制来完成。

这些是两种一般方法。

  1. 你可以启动面向对象并告诉它执行一个宏来为给定的文件完成这项工作。然后您只需编写宏和脚本来遍历文件。语法是一样的东西

    $ oowriter -headless名宏://dir/Standard.Module1.sMySub

  2. 其他的事情OO已经是一个网络API。这是基于所谓的UNO。

    $ oowriter -accept =接受字符串

    Notifies the OpenOffice.org software that upon the creation of 
    "UNO Acceptor Threads", a "UNO Accept String" will be used. 
    

您将需要某种形式的客户端库。我认为他们至少有一个用于Python。使用这种技术,Python程序或其他一些带OO客户端库的脚本语言可以驱动程序并转换所有文件。由于OO读取MSO,它应该能够完成所有这些操作。

+0

喜 我不能得到你。 你会更具体吗? 请帮助我,因为我需要尽快将odt文件转换为txtx文件 – Akhtar 2009-10-14 09:31:29

+0

好的,我已经更新了我的答案,以使事情更清晰。我会在今天晚些时候在这里添加更多的东西,在6或12个小时内回来...... – DigitalRoss 2009-10-14 17:15:02

对于word文档,你可以尝试antiword,至少在linux上。它是一个命令行实用程序,它将一个单词文档作为参数,并将该文档中的文本(尽可能最好地描绘)转换为标准输出。也许你也可以指定一个输出文件。我不记得它是如何工作的细节。我有一段时间没有用过它。不知道它是否可以处理面向对象的文档。

对于Microsoft格式,请查看wvWare tools

有对ODT文件和类似的系统程序:

odt2txt - 在回购avaliable。

+1

这是一个非常轻量级的程序,它的工作非常好。谢谢! – tuxdna 2014-01-24 14:30:17

$ unoconv --format=txt document1.odt 

应该生成document1.txt。

打开。通常ODS文件中*报办公室

突出显示文本转换

打开一个终端

运行VI

按 “I” 获得插入模式

按Ctrl-Shift-V

完成!

需要一些格式?

将文件保存为

走出六

润:

$猫|列>文件名2

这个工作运行KDE

替代 “KWrite这样” 的openSUSE为 “VI”,如果你想