聊一聊elastic search

今天聊一聊elastic search

首先说说正排索引和倒排索引,在我理解,正排索引就是知道了序号,根据序号查找到对应的内容,而倒排索引,就是根据内容锁定好序号,正排索引与倒排索引相结合的使用场景是,根据用户给的内容,根据倒排索引锁定内容的序号信息,然后根据序号,给出完整的内容。下面是一个简单的正排索引与倒排索引的例子:

聊一聊elastic search
es里的倒排索引:包括单词词典(Term Dictionary)和倒排列表(Posting List)。单词词典记录所有文档的单词,一般都比较大,还会记录单词到倒排列表的关联信息。单词词典一般用B+树的实现方式。
聊一聊elastic search倒排列表记录了单词对应的文档集合,由倒排索引项(posting)组成。
倒排索引项主要包含四个信息:
1,文档id,用于获取原始信息。
2,单词频率(TF,term frequency),记录该单词在该文档中出现的次数,用于后续相关性算分。
3,位置,记录单词在文档中的分词位置(多个),用于做词语搜索。
4,偏移量(offset),记录单词在文档的开始位置和结束位置,用于做高亮显示。
聊一聊elastic search
下面说说分词,分词就是简单来说就是把一句内容分成诸多单词。
分词器:分词器由三部分组成
1,character filters:针对原始文本进行处理,比如去除一些特殊标记符号。
2,tokenizer:将原始文本按照一定规则划分为单词。
3,token filters:针对上一步处理完的单词进行再加工,比如大小写转换,删除与新增等处理。

es的match query流程:
聊一聊elastic searches文档创建流程:
聊一聊elastic search
es文档读取流程:
聊一聊elastic search倒排索引一旦生成,不可更改。
优点:
1,不用考虑并发写文件的问题,杜绝了锁机制带来的性能问题。
2,由于文件不再更改,可以充分利用文件系统缓存,只需载入一次,只要内存足够,对该文件的读取都会从内存读取,性能高。
3,利于生成缓存数据。
4,利于对文件进行压缩存储,节省磁盘和内存存储空间。
缺点:需要写入新文档时,必须重新构建倒排索引文件,然后替换老文件后,新文档才能被检索,导致文档实时性差。

es文档搜索实时性问题
Lucene构建的单个倒排索引称为segment,合在一起称为index,es中的一个分片对应一个Lucene Index,Lucene会有一个专门的文件来记录所有的segment信息,称为commit point。

refresh:segment写入磁盘的过程很耗时,可以借助文件系统缓存的特性,先将segment在缓存中创建并开放查询来进一步提升实时性,该过程被称为refresh。在refresh之前文档会先存储在一个buffer中,refresh时将buffer中的所有文档清空并生成segment(在内存中)。es默认一秒执行一次refresh,因此文档的实时性被提高到1s,这是被称为近实时的原因。

translog:如果在内存中的segment还没有写入磁盘前发生了宕机,那么其中的文档就无法恢复了,如何解决这个问题。es引入了translog机制。写入文档到buffer时,同时将该操作写入translog。translog文件会即时写入磁盘,6.x后默认每个请求都会直接落盘,可以修改为每几秒写一次,这样的风险便是丢失几秒内的数据,相关配置为index.translog.*。es启动时会检查translog文件,并从中恢复数据。

flush:flush负责将内存中的segment写入磁盘,主要有以下工作:
1,将translog写入磁盘。
2,将index buffer清空,其中的文档生成一个新的segment,相当于一个refresh操作。
3,更新commit point并写入磁盘。
4,执行fsync操作,将内存中的segment写入磁盘。
5,删除旧的translog文件。
总结:先写index buffer,再写内存,再写磁盘,translog同时写磁盘保证数据不丢失。