倒排索引学习笔记

概述

顺序扫描法(正向搜索法)

  • 举个例子:比如我们有大量的文件,文件编号从A,B,C。。。。。。

  • 需求:要找出文件内容中包含有java的所有文件

  • 需求实现:从A文件开始查找,再找B文件,然后再找C文件,以此类推。。。。。

    弊端:如果文件数量很多,查找速度慢!!!

倒排索引法(反向/倒排搜索法)

  • 举个例子:使用新华字典查找汉字,先找到汉字的偏旁部首,再根据偏旁部首对应的目录(索引)找到目标汉字。
  • 倒排索引学习笔记
    倒排索引学习笔记

一、倒排索引法中,索引包括哪些内容?

索引的内容包括:

1)文档(Document):需要被搜索到的内容

2)词条(Terms):把文档内容通过分词器分成词条(词条是方便用户搜索使用的)

3)文档的编号和词条频率:记录每个词条在哪个文档出现过,出现过几次。

4)词条出现的文档位置: 每个词条在文档哪个位置出现过。

二、如何使用倒排索引法搜索数据?

​ 1)先建立索引库:建立词条,词条在文档出现的频率及位置等信息。

​ 2)用户通过搜索索引库获取文档:搜索到索引库中的词条,再根据词条反向获取文档(记录)数据。