来自PDF的废料数据并将其保存到mysql数据库

问题描述：

有人建议我从PDF文件中抓取数据并使用PHP或任何其他工具将其保存到MySql数据库。来自PDF的废料数据并将其保存到mysql数据库

实际上，我正在创建一个脚本，它将读取纯文本内容（使用apache-tika工具将PDF内容转换为纯文本）并将其保存到数据库。但这是一个非常漫长的过程，并不准确。

所以，请给我建议任何其他方法来完成这项任务。

http://www.pdfparser.org/ –

能否请你展示一些代码。 '不准确'你是什么意思？ http://*.com/help/how-to-ask – Pogrindis

喜欢，如果我们想从PDF内容中取消一个人的“介绍”和“职位”。所以我们会在内容中找到这些标题，但是在“介绍”或“工作描述”的内容中也可能会出现这些标题。那为什么我说这不会准确。 – Ajai

答

你可以做一件事，如果你想报废1或2 PDF格式，你可以使用任何在线工具将PDF格式转换为HTML格式，然后通过使用simplehtmlDom库你可以报废数据。您可以使用PDF Text Extractor从pdf中提取文本。

我希望这将有帮助你

没有家伙，我有数以百万计的PDF文件。 – Ajai

你可以试试PDF Text Extractor类 –