查找复制PDFs

问题描述:

我正在寻找一个实用程序,它将帮助我查找重复的PDF。问题:我有1000个PDF文件。有些是重复的。由于不同的文件名称和文件大小的细微差异,它们并不容易检测到。是否有一个实用程序/算法/库,可以帮助我找到重复或显示非常相似(或差异程度)的文件?查找复制PDFs

+0

刚刚找到可以工作的实用程序:http://anti-twin.com/ – Elvin 2010-10-03 15:45:29

DiffPDF看起来像是可以帮助你的东西。

+0

DiffPDF并排比较2个文件。不幸的是,我有1000个文件要比较,所以自动化解决方案将是最好的。 – Elvin 2010-10-03 15:44:39

为每个文件创建一个MD5散列并将其存储在数据库中。然后相同的文件将相邻排序,或者您可以快速搜索预先存在的密钥。

如果文件是由不同的工具创建的,它们可能看起来相同,但会产生非常不同的结果,因为它们的结构完全不同。我在一篇博客文章中提出了一些建议https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

我记得有一个名为pdf2txt的UNIX实用程序(请参阅包poppler-utils)。您可以尝试从文件中提取文本并进行文本比较。

问题还没有解决。我所做的是,我使用fdupes http://premium.caribe.net/~adrian2/fdupes.html来查找确切的重复项。

但最重要的是,我使用的工作流最小化了重复。每一个进入我的系统的文档都被这个Perl脚本编入索引,我写了:http://seegras.discordia.ch/Programs/fileindex,它把一些名字和它的一个md5和加到〜/ .fileindex.md5中现在我可以改变本地PDF文件的元数据或任何再次运行fileindex),并且每当我不经意地再次下载同一个文件时,我将继续运行原始文件的md5-sum,从而可以检测它是否是重复的。

还有exif-meta和exif重命名http://seegras.discordia.ch/Programs/这有助于设置PDF元数据和根据元数据重命名PDF文件;如果您正确标记所有文件,则最终会出现重复的文件名,表明它们可能是不同文件中的同一文件。