如何使用PHP中的LiveDocx来读取.doc&.docx文件并读取其中的文本并保存为HTML?

问题描述:

假设我们有一个.doc &.docx文件。我想在PHP中使用LiveDocx来加载文件,读取它的内容并从文件中剥离文本。然后将其保存为HTML字符串。如何使用PHP中的LiveDocx来读取.doc&.docx文件并读取其中的文本并保存为HTML?

可以这样做吗?

我搜索了文档,并且它接近LiveDocx只加载.doc & .docx模板文件!

+0

其他plattform呢?我的意思是你可能会发现其他具有比LiveDocx更多功能的平台。 – Kevin 2011-04-12 12:10:56

我想你可以在this example找到你需要的。

我可能是错的,但我认为他们称之为“模板”文件,因为它们的行为就像一个模板,但仍然是正常的.doc/.docx文件。我建议你只是试着运行这个例子。

我认为你可以使用TextControl改善phpLiveDocx TextControl link

使用这个,你还可以导入PDF文档和DOCX

可以节省使用外部库,只是抓住从文件中的XML文本: http://www.webcheatsheet.com/PHP/reading_the_clean_text_from_docx_odt.php

当您在LiveDocX上进行文档转换时,您需要执行mailmerge然后检索文档。即使您没有插入任何新内容,您仍需要使用虚拟内容替换虚拟占位符的邮件合并。

所以,这个过程中我会建议是:

1)设置你的源文件为本地模板
2)合并一个虚拟场与虚拟内容
3)检索您的文档作为HTML
4 )使用脚本服务器端删除html并仅保留内容(类似于,删除HEAD标记之间的所有内容,然后删除其余部分中的所有内容) 5)您应该将内容保留为简单字符串 - 我是不确定它会太有意义,但可能对构建搜索索引等有用。