提取文本内容,并包含文本和图像PPTX - Linux的

问题描述:

DOCX到TXT:提取文本内容,并包含文本和图像PPTX - Linux的

我尝试下面的代码从DOCX提取文本。当docx有图像时它不起作用。

unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' 

对于PPTX格式为TXT,我发现了一个Perl脚本提取TXT。当pptx具有图像时它不起作用 - 相同。

我想提取txt内容以启用文档间的搜索选项。因此,一个跳过图像并将docx文本内容转换为txt的命令/脚本甚至会有所帮助!

+0

为什么被标记为'python'? – moritzg

+0

我宁愿linux命令,但即使perl/python脚本也会。 – RPS

+0

如果你有动力,'串some.docx'并手动分类,但它会很长,很痛苦 – Pantoofle

从你的代码(How to extract just plain text from .doc & .docx files? (unix))得到的SO问题提供了其他选项。
libreoffice答案差不多的作品,大概在2012年
现在(的LibreOffice 5.1)做了尝试:

libreoffice --convert-to txt text some.docx 

libreoffice --headless --convert-to txt text some.docx 

确保你没有libreoffice已经打开。