tesseract box文件中第五列的含义是什么?

问题描述:

在Tesseract box文件培训期间,我发现需要编写一个脚本来移动一些框。我打开了一个盒子文件,以确定哪一列对应于X/Y/W/H,并发现了第五列。 Tesseract wiki没有提供任何解释,“Make Box Files”部分给出的示例仅在第五列中包含零。我的训练文件包含其他符号。例如,这些是我发现的一些符号:[“:,}'4. * < & \; \ |]。这些是什么意思?tesseract box文件中第五列的含义是什么?

你可能是指对第六个或最后一列,代表页码(见Training wiki),听起来好像你的盒子文件没有正确生成,

+0

没错,我忽略了字符栏。我实际上使用你的jTessBoxEditor(顺便说一下,感谢所有有用的工具和在线评论!)。 – MrMulliner

如果我没记错,第五列是白名单的角色。这样,你可以为一个区域指定专用的数字,而另一种是文本。

正方体将认识到从白名单中唯一的符号对于一个给定的区域。

+0

那么为什么不同的符号? – MrMulliner