需要在阅读AFP文件和提取内容和元数据方面领先一步

问题描述:

我被分配到这个特定项目上工作,在那里我们将获得AFP(高级函数演示文件)文件,我们需要获取文档,也就是内容和相应的元数据。我一直在研究AFP(高级函数演示文件)文件格式,实际上并没有任何有关我应该如何执行此任务的有用资源。需要在阅读AFP文件和提取内容和元数据方面领先一步

到目前为止,我几乎没有任何信息,不知道从哪里开始。我看了一些开源项目,发现这个:https://github.com/yan74/afplib

我试着运行它..但它不适用于我有的示例法新社文件。

真的需要一些洞察力,我应该通过什么资源来完成这个项目。

我需要用Java编写代码,并且经历了一些许可的软件,比如PROARCHIVER和PAPYRUS。

在此先感谢

AFP是一个简单的格式,它的组成结构域,你的第一步是其解码,下载这个:“混合对象文档内容体系结构参考”先读50页,写代码,以分割afp到结构化字段中,以创建文件的简单转储。

,如果你想提取图像AFP世界称他们IOCA,所以你需要在那之后:法师Ø bject Ç ontent 一个体系结构的设计基准

如果要提取文本(所谓PTX),你需要:P resentation 牛逼ËX吨对象内容体系结构参考

做得好

+0

感谢您的回答。 –

+0

还有一件事,我试着看看我的AFP文件是如何构造的,并发现NOP结构化字段中的大部分数据。你能告诉我如何解析这种类型的结构化字段,我卡在这里。同时,我将阅读你在答案中提到的文件。再次感谢。 –

+0

NOP表示没有操作,它是一个注释,nop的有效载荷是原始的,它应该在我列出的第一个文档中描述 – owairc