Openxml的使用配合mupdf的识别生成word(一)
在开发之前做了很多的处理和筛选,之前我做了许多的mupdf相关的操作,至此我的目标是实现mupdf提取的文字和图片信息放入word中。
着重标注一下openxml的说明。虽然工具和资料都很多,也很久远,但是好用,就是硬道理。
1.工具:OpenXMLSDKToolV25.msi (点击直接下载)
2.安装后打开主文件,操作打开一个word文件,可以查看详细的内容属性。当然,我不怎么需要这个功能,我主要需要的是查看命名空间和接口(open XML SDK Document),查询子接口和父借口。如图二(我查询 wp:anchor )右下角child 和Parent 都可看的很清楚。
3.至于 wp:anchor 这种数据从何处查看到的,我就不一一用图说明了。上流程 。
1.新建word文档----2.加入一串文字或者图片-----3.保存后,将文件后缀名改成 .rar ,然后解压文件-----4.解压后的文件有几个文件夹,进入word文件夹,找到 document.xml 文件,打开查看。我试用的工具是 VS code查看的
结构清晰可见。
4.后面我们将逐步做开发的功能介绍;主要文字和图片方向