从PDF中提取表格数据并对其进行排序

问题描述:

这是一个PDF文件,其中包含特定考试的标记列表。 http://www.megaupload.com/?d=T9VM6P9E从PDF中提取表格数据并对其进行排序

我特别感兴趣的第一个列表,但不幸有2112条目。而且它们的格式不正确。我需要对所有这些条目进行排序(基于最后2列中的标记 - 能力和计算机中的标记总和),以了解我的排名是什么。

我试图在MS Word和Excel中复制,但如果你尝试它,你可以看到它不会帮助。在将它粘贴到一个纯文本文件中后,我尝试使用正则表达式(在Notepad ++中)对其进行格式化,在C中编写代码以正确分隔每个字段'\ t'(以便稍后我可以将它们正确地复制到Excel工作表中),但不一致性使我失败(某些条目产生多行,“名称”没有固定的字段数)。

有人可以提出任何想法,将PDF格式的第一个列表以原始文件的形式复制到电子表格中吗?

我非常需要对此进行排序,任何帮助将不胜感激。 :)

我曾经负责构建一个解析器,该解析器可以从表格和非表格数据中以多种不同编码方式提取数据,并混合使用rtl和ltr文本。该项目付出了相当大的努力,但用简单的英文表,您应该能够立刻剖析PDF。在adobe.com上查找PDF规格,如果是绝望的开始挖掘。

此外,您还需要先使用pdftk.exe来解压缩文件。

快捷方式,我是援助: http://www.adobe.com/devnet/pdf/pdf_reference.html

这是我说的是快捷方式:http://www.codeproject.com/KB/cs/PDFToText.aspx

+0

谢谢desertverge,但你能够规定确切的程序?我不太熟悉PDF文件格式和东西... 我试过pdftk解压缩它,但它说它无法打开PDF文件。我实际上正在尽我所能对列表进行排序,所以没有多少时间阅读文档。稍后会看到它。不管怎么说,还是要谢谢你。 :) – Ninad 2010-05-10 15:46:58

嗯,我有点管理它。我首先将它复制到一个纯文本文件,删除所有的字母,只留下序号和相应的标记,用空格或制表符分隔。然后使用OpenOffice电子表格中的“导入”,告诉它分隔符是空格和制表符(如果需要,将它们组合在一起)和宾果游戏!我获得了我的等级。

但我仍然想知道是否可以复制整个表。所以保持这个问题的开放。

+0

这是一次性交易还是想定期建立一个工具来做到这一点? – 2010-05-10 15:56:49

+0

嗨ninad,我正在做同样的方式,就像你如何解释上面,但我面临的问题是当我提取一个只有数字的行,数字的位置正在洗牌!对于我处理的每个pdf文件,这个数字的位置是随机变化的, – 2014-08-02 07:27:04

  1. 对于有关为什么PDF文件格式应该永远不会被托管提取,结构化数据认为是合适的背景,看到这篇文章:

  2. 对于一个惊人的开源工具家族,每周从PDF获取表格数据(除非他们是扫描页面),每周都会变得更好更好 - 矛盾点'1'。以上! - 看到这些链接:

+0

我发现Tabula感谢你的回答,它对我来说非常好。 – Esteis 2015-02-01 16:17:42