索引PDF文件并生成关键字摘要

问题描述：

我在本地文件系统中使用了大量的PDF文件作为文档库，我想创建这些文件的索引。我想：索引PDF文件并生成关键字摘要

我的问题是：

看看[recoll]（https://www.lesbonscomptes.com/recoll/features.html） – John1024

答

假设点2和3似乎习俗，我建议有自己的脚本，使用工具出它来解析PDF格式，其过程请你输出，并写HTML（可能使用另一种工具）。

Perl非常适合这种情况，因为它擅长您需要的处理，并且还提供对通过模块处理各种文件格式的支持。

至于阅读pdf，这里有一些选择，如果你需要的不是太详细

最后两个是你通过Perl的内建像system使用外部工具。

以下用于构建摘要和设计输出的文本处理正是Perl所用的语言。提到的几个任务需要几行代码。

然后写出HTML，直接如果简单或使用合适的模块。鉴于你的目的，你可能想看看HTML::Template。例如，另请参阅this post。

PDF的完整解析可能是不可行的，但如果文件不是太复杂，它应该工作。

如果您选择关键字和建筑物统计数据的过程相当普遍，则可以使用集成的文档管理工具（搜索参考书目管理器）。然而，我认为他们大多采用外部工具来解析pdf，所以你用自己的脚本仍然可以更好。

@JeanJouX让我知道，如果更具体的将是有用的。例如，我可以发布（几行）示例代码，可以生成一个单词列表，对它们进行过滤和计数。 – zdim