Lucene笔记系列（1）——Lucene的理论基础之全文检索

2019独角兽企业重金招聘Python工程师标准>>> Lucene笔记系列（1）——Lucene的理论基础之全文检索

本系列开始学习Lucene。

在我们处理的数据当中，分为三类数据：

结构化数据：具有固定格式或限定长度的数据，如我们的数据库中的数据

非结构化数据：无固定格式、无固定长度的数据，如我们web上的文本内容等

半结构数据：如Json、XML数据。

那么我们怎么来处理这些不同类型的数据呢？

对于数据库中的结构化数据，使用SQL语句查询

对于非结构数据，我们顺序扫描、全文检索.

其中，顺序扫描就是从数据的开头的一条数据扫描到最后的一条数据。显而易见的是，这对于时间、性能都是很大的浪费。

那什么是全文检索呢？

这就是Lucene要完成的事情了。下面我们先看一张图来描述它在整个系统中所起到的作用:

Lucene笔记系列（1）——Lucene的理论基础之全文检索

对lucen上层的应用部分，我们可以看到应用手机了结构化的、半结构化的、非结构化的数据，由lucene为其建立索引文件；另一种应用则是检索，用户通过输入检索条件的关键词检索我们的索引库，然后把结果返回给用户。

那么什么是索引？

就像新华字典中的拼音检索和部首索引用来查字一样。

在lucene中也是一样，全文检索指的是某一个词在哪些文档中出现过。例如：

Lucene笔记系列（1）——Lucene的理论基础之全文检索

在上图中，“lucene”这个关键词在第1篇和第3篇文档中出现过。“Solr”这个关键词在第1、3、5篇文档中出现过。“hadoop”这个关键词在第3、5、7、8、9篇文档中出现过。

这里我们把整个过程称之为“反向索引”。右边的每个关键词的文档链表我们称之为倒排表。

什么是反向索引？

反向索引：这种由字符串到文件的映射是文件到字符串映射的反向过程。其实描述的就是一种映射关系。

创建索引

好吧。那么创建全文检索的步骤是怎么样的呢？

这里我们将创建全文检索分为三个步骤或者说需要的三个东西：

需要检索的数据（Document）

分词技术（Analyzer）

索引创建（Indexer）

我们举个例子吧。

第一步，Document数据实例

我的博客空间

HappyBKs的Lucene文章

HappBKs的Hadoop文章

第二步，分词技术。（我们这里采用标准分词。）

我|的|博|客|空|间

happybks|的|lucene|文|章

happbks|的|hadoop|文|章

注意，这里经过标准分词之后，中文按字进行了切分，英文的大写字符被转换为了小写。

第三步，索引创建。

Term	ID	Term	ID	Term	ID
我	1	happybks	2	happbks	3
的	1	的	2	的	3
博	1	lucene	2	hadoop	3
客	1	文	2	文	3
空	1	章	2	章	3
间	1

我们对索引进行合并。

Term	ID	Term	ID	Term	ID
我	1	happybks	2,3
的	1,2,3
博	1	lucene	2	hadoop	3
客	1	文	2,3
空	1	章	2,3
间	1

这张表就是我们所说的索引。

现在，我们来看看，如何利用索引来进行检索。

索引检索

分为四个步骤：

搜索关键词（keywords）

分词技术（Analyzer）

检索索引（Search）

返回结果

我们还是放到例子里来梳理步骤。

第一步，获得用户搜索的关键词

lucene文章

第二步，采用分词技术

lucene|文|章

第三步，检索索引。

Lucene笔记系列（1）——Lucene的理论基础之全文检索

通过上面的图我们可以看到，倒排表中，包含关键词所有分词单元的文档是文档2.

第四步，将结果——第2篇文档返回。

本文主要阐述了全文检索的一般原理和过程。至于lucene用怎样的数学模型，如何实现全文索引，我会在本系列后面的文章中介绍。

转载于:https://my.oschina.net/happyBKs/blog/494130

Lucene笔记系列（1）——Lucene的理论基础之全文检索

相关推荐