来自PDF的废料数据并将其保存到mysql数据库

问题描述:

有人建议我从PDF文件中抓取数据并使用PHP或任何其他工具将其保存到MySql数据库。来自PDF的废料数据并将其保存到mysql数据库

实际上,我正在创建一个脚本,它将读取纯文本内容(使用apache-tika工具将PDF内容转换为纯文本)并将其保存到数据库。但这是一个非常漫长的过程,并不准确。

所以,请给我建议任何其他方法来完成这项任务。

+0

http://www.pdfparser.org/ –

+1

能否请你展示一些代码。 '不准确'你是什么意思? http://*.com/help/how-to-ask – Pogrindis

+0

喜欢,如果我们想从PDF内容中取消一个人的“介绍”和“职位”。所以我们会在内容中找到这些标题,但是在“介绍”或“工作描述”的内容中也可能会出现这些标题。那为什么我说这不会准确。 – Ajai

你可以做一件事,如果你想报废1或2 PDF格式,你可以使用任何在线工具将PDF格式转换为HTML格式,然后通过使用simplehtmlDom库你可以报废数据。 您可以使用PDF Text Extractor从pdf中提取文本。

我希望这将有帮助你

+0

没有家伙,我有数以百万计的PDF文件。 – Ajai

+0

你可以试试PDF Text Extractor类 –