如何使用命令行从图像中提取文本
读取图像并自己提取文本非常容易。 但是动态地从照片中提取文本要困难一些,而且值得庆幸的是, imgclip提供了一个相当简单的解决方案。
此命令行工具在Mac,Windows和Linux的终端中运行。 它只需要为图像文件加上语言作为参数,然后返回复制到剪贴板的文本即可。
另请阅读: 为什么所有开发人员都应该学习命令行
您可以通过npm安装整个库,这是一个非常简单的安装 。 这个东西只有几KB大 ,并且带有一个JS文件,您可以在GitHub上浏览该文件。
Imgclip 使用Tesseract.js库来自动化图像处理并通过OCR提取文本。 它是迄今为止功能最强大的OCR库之一,并且像imgclip一样是完全开源的。
我觉得这个工具的质量和速度给我留下了最深刻的印象。 确实可以提取准确的文本 ,它是最简单的工具之一。
imgclip命令应直接在终端中运行 ,然后是图像的相对路径。 您还可以在末尾添加四个选项来自定义输出。
-
-h
,----help
:输出用法信息 -
-V
,--version
version :输出版本号 -
-l
,----lang
:输出图像中文本的语言 -
-p
,--print
:打印出来的文字图像中(而不是复制到剪贴板)
在撰写本文时,Tesseract 支持65种语言,并且还在不断增加。 附加到--lang
标记的代码应该是那些Tesseract文件中使用的代码。
例如, -l eng
将在图像中搜索英文文本 ,而-l jpn
将搜索日文文本 ,您甚至可以运行-l jpn_vert
来搜索垂直方向的日文文本 。
由于imgclip严重依赖Tesseract,因此您基本上可以使用整个库的功能。
首先 ,请访问GitHub页面并在本地下载副本,或通过npm将其安装到特定目录。 然后,您可以像应用程序一样在终端中运行该工具来解析所需的任何图像 。
要查看imgclip的实际效果 ,请查看此简短视频 , 该视频是作为imgclip演示创建的。
翻译自: https://www.hongkiat.com/blog/extract-text-from-images-imgclip/