Lucene搜索引擎

本篇文章,我将简单的介绍一下lucene使用的倒排索引及lucene,下篇文章将对lucene的使用做以说明:

倒排索引:

传统的sql在用模糊查询的时候其实是一个一个比较后,匹配完然后返回一个结果,这在数据量很小的时候还可以,当数据量非常大的时候这种查询的效率将会很低,为了解决这个问题,出现了一种思路就是倒排索引.  那么什么叫倒排索引呢?

倒排索引就是将一句话拆分成若干个词或者字存储在索引数据库中,当用户来访问数据库的时候,该系统会将用户输入的关键词也进行分词,将分词好的内容拿到索引数据库中进行比对,比对成功后将其中一部分匹配度高的(分数高的)进行返回给用户浏览.  这样做类似于hashcod检索法能极大提高查询效率.

Lucene搜索引擎

 

Lucene是apache公司开发的一个专门用于检索方法的工具包,所以在使用的时候需要导包.

Lucene搜索引擎

 

由于Lucene开发的中文检索分词jar不太合理,所以我们一般不适用lucene提供的针对中文的jar包,而是使用第三方的另外一个jar包多一些,例如IK分词器

Lucene搜索引擎