索引PDF文件并生成关键字摘要
我在本地文件系统中使用了大量的PDF文件作为文档库,我想创建这些文件的索引。 我想:索引PDF文件并生成关键字摘要
- 解析PDF文件的内容以获取关键字。
- 选择最相关的关键字进行汇总。
- 为某些关键字创建静态HTML页面,并将条目链接到相应的文件。
我的问题是:
- 是否有执行整个作业的现有工具?
- 解析PDF文件内容,过滤(按文字大小)并计算单词的最合适的工具是什么?
- 我考虑使用
Perl
,swish-e
,pdfgrep
做一个脚本。你知道其他可能有用的工具吗?
假设点2和3似乎习俗,我建议有自己的脚本,使用工具出它来解析PDF格式,其过程请你输出,并写HTML(可能使用另一种工具)。
Perl非常适合这种情况,因为它擅长您需要的处理,并且还提供对通过模块处理各种文件格式的支持。
至于阅读pdf
,这里有一些选择,如果你需要的不是太详细
使用
CAM::PDF
(和CAM::PDF::PageText
),或从poppler
库PDF-API2
模块使用
pdftotext
(可能在poppler-utils
包)使用
pdftohtml
-xml
选项,读取生成的简单的XML文件XML::libXML
或XML::Twig
最后两个是你通过Perl的内建像system
使用外部工具。
以下用于构建摘要和设计输出的文本处理正是Perl所用的语言。提到的几个任务需要几行代码。
然后写出HTML,直接如果简单或使用合适的模块。鉴于你的目的,你可能想看看HTML::Template
。例如,另请参阅this post
。
PDF的完整解析可能是不可行的,但如果文件不是太复杂,它应该工作。
如果您选择关键字和建筑物统计数据的过程相当普遍,则可以使用集成的文档管理工具(搜索参考书目管理器)。然而,我认为他们大多采用外部工具来解析pdf
,所以你用自己的脚本仍然可以更好。
@JeanJouX让我知道,如果更具体的将是有用的。例如,我可以发布(几行)示例代码,可以生成一个单词列表,对它们进行过滤和计数。 – zdim
看看[recoll](https://www.lesbonscomptes.com/recoll/features.html) – John1024