23.分布式文档系统_深度图解剖析document数据路由原理

1、document路由到shard上是什么意思？

我们知道一个index的数据会被分为多片，每片都在一个shard中，所以，一个document只能存放在一个shard中。
当客户端创建document的时候，es此时就需要决定这个document是放在这个index的哪个shard上，这个过程，就称之为数据路由（document routing）。

2、路由算法

路由算法：shard = hash(routing) % number_of_primary_shards
举例：一个index有3个primary shard，P0，P1，P2

每次增删改查一个document的时候，都会带过来一个routing number，默认就是这个document的_id（可能是手动指定，也可能是自动生成routing = _id，假设_id=1

es会将这个routing值，传入一个hash函数中，产出一个routing值的hash值，假设这个routing算出来的hash值为hash(routing) = 21，然后将hash函数产出的值对这个index的primary shard的数量求余数，计算结果为 21 % 3 = 0 ，就决定了，这个document就放在P0上。

es决定一个document在哪个shard上，最重要的一个值就是routing值，默认是_id，也可以手动指定，相同的routing值，每次过来，从hash函数中，产出的hash值一定是相同的。

无论hash值是几，无论是什么数字，对number_of_primary_shards求余数，结果一定是在0~number_of_primary_shards-1之间这个范围内的。

3、_id or custom routing value

es默认的routing就是_id
但也可以在发送请求的时候，手动指定一个routing value，
比如：put /index/type/id?routing=user_id

手动指定routing value是很有用的，可以保证说，某一类document一定被路由到一个shard上去，那么在后续进行应用级别的负载均衡，以及提升批量读取的性能的时候，是很有帮助的。

4、primary shard数量不可变的原因

举例：
假设primary shard数量是可变，当前primary shard的数量为3，分别是P0,P1,P2；
当客户端创建一个document数据要存入es，这条数据routing的hash值是21，根据 document 路由算法21%3 = 0 ，这条数据放入P0的中；
这时再创建一个新的parmary shard 为 P4,客户端要根据id查找对应的document 数据，此时，通过算法获取数据位置 21%4 = 1,系统会去P1中查找用户需要的数据，结果显而易见，是查不到数据的。
所以，Elasticsearch中primary shard数量不可变的。

23.分布式文档系统_深度图解剖析document数据路由原理

primary shard数量不可变原因

23.分布式文档系统_深度图解剖析document数据路由原理

1、document路由到shard上是什么意思？

2、路由算法

3、_id or custom routing value

4、primary shard数量不可变的原因

相关推荐