Solr Tika,文字与风格

问题描述:

我看过这个链接: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是纯文本,没有Tika for Solr的任何风格来搜索。 是否有可能从Solr获得文本样式? 换句话说,我们需要在solr搜索后以原始样式显示文本。Solr Tika,文字与风格

如果你仔细想想,pdf中的“原创风格”是什么?你想保留哪些“风格”的组成部分?

它不仅仅是字体和重量,它是笔画,填充,角度,路径,图形,跟踪,透明度,转换等等。如果你有这些,你会如何在你的用户界面/网页上显示它?

除了显示原始PDF之外,您无法真正复制原始样式。这就是人们通常如果想要原始格式的话。

否则,他们只是使用纯文本。