Openxml的使用配合mupdf的识别生成word(一)

在开发之前做了很多的处理和筛选,之前我做了许多的mupdf相关的操作,至此我的目标是实现mupdf提取的文字和图片信息放入word中。

着重标注一下openxml的说明。虽然工具和资料都很多,也很久远,但是好用,就是硬道理。

1.工具:OpenXMLSDKToolV25.msi  (点击直接下载)

https://download.microsoft.com/download/5/5/3/553C731E-9333-40FB-ADE3-E02DC9643B31/OpenXMLSDKToolV25.msi

2.安装后打开主文件,操作打开一个word文件,可以查看详细的内容属性。当然,我不怎么需要这个功能,我主要需要的是查看命名空间和接口(open XML SDK Document),查询子接口和父借口。如图二(我查询 wp:anchor )右下角child 和Parent 都可看的很清楚。

Openxml的使用配合mupdf的识别生成word(一)Openxml的使用配合mupdf的识别生成word(一)

3.至于 wp:anchor 这种数据从何处查看到的,我就不一一用图说明了。上流程 。

1.新建word文档----2.加入一串文字或者图片-----3.保存后,将文件后缀名改成   .rar  ,然后解压文件-----4.解压后的文件有几个文件夹,进入word文件夹,找到  document.xml 文件,打开查看。我试用的工具是 VS code查看的

Openxml的使用配合mupdf的识别生成word(一)

结构清晰可见。

4.后面我们将逐步做开发的功能介绍;主要文字和图片方向