Lucene 索引文件的生成(十九)之dvd&&dvm

在文章索引文件的生成(十八)之dvm&&dvd中,我们介绍了Lucene在索引阶段跟flush阶段收集到的SortedDocValues、SortedSetDocValues信息,这些信息将作为生成索引文件.dvm、dvd的依据。

生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues的流程图

图1:

Lucene 索引文件的生成(十九)之dvd&&dvm

是否所有文档中都是单值?

图2:

Lucene 索引文件的生成(十九)之dvd&&dvm

  如果每篇文档中的某个域名的SortedSetDocValueField只有一个,即所谓的单值,判断numDocsWithField跟numOrds的值是否相同,相同意味着所有文档中都是单值:

  • numDocsWithField:该值描述了包含当前SortedSetDocValueField的文档数量,在文章索引文件的生成(十八)之dvm&&dvd中我们说到,在索引阶段,通过DocsWithFieldSet收集文档号,在当前流程点就是通过DocsWithFieldSet获取文档号,DocsWithFieldSet存储文档号的内容在文章索引文件的生成(十五)之dvm&&dvd已经介绍,不赘述。
  • numOrds:在文章索引文件的生成(十八)之dvm&&dvd我们说到,每种域值对应一个ord值,如果一篇文档中出现了相同域名的SortedSetDocValueField的多个域值,这些域值如果不全都相等,显而易见,numDocsWithField跟numOrds的值是不同的,意味着多值。获得一篇文章中numOrds的值的方法是通过收集阶段生成的ordMap数组。

那么此时对应生成的索引文件跟SortedDocValue是一致的,如下所示:

图3:

Lucene 索引文件的生成(十九)之dvd&&dvm

  在读取阶段,根据DocValuesType字段判断出是SortedSetDocValues后,接着读取索引文件的下一个字节,即SingleValue,根据SingleValue的值判断索引文件的数据结构:

  • SingleValue == 0:单值,那么SingleValue字段后的所有字段跟SortedDocValues一致
  • SingleValue == 1:至少有一篇文档中包含了多个(大于1)某个域名的SortedSetDocValueField

  图3中,DocValuesType字段的值描述了当前的DocValues类型,字段的可选值如下所示:

看这里:https://www.amazingkoala.com.cn/Lucene/Index/2020/0531/145.html