大数据--一致性哈希算法

题目:

工程师尝试用服务器集群来设计和实现数据缓存,以下是常见的策略。

1,无论添加、查询、删除数据,都先将数据ID通过哈希函数转换成哈希值key。

2,有N台机器,则 key%N 为该数据所属的机器编号。无论是添加、删除、查询都在这台机器上进行,请分析这种话缓存策略带来的问题,并提出改进方案。


思路:

该缓存方式弊端:如果增加、删除机器-->那么N会变,根据ID重新计算key,重新%N’,然后会有很多数据重新迁移到新的机器上,代价大。


解决方案:一致性哈希算法

假设id通过哈希函数计算后的结果为0~2^32. 这些key首位相连构成环形分布,假设有N=3台机器根据哈希函数也处在环中,那么id1顺时针找到距离最近的机器Computer,id1的所有添加、删除查询操作都在这个上面。如图。

大数据--一致性哈希算法


这样做的好处是,添加删除机器时,数据迁移的代价小。

大数据--一致性哈希算法


添加新机器m3,经过哈希函数计算m3的位置在m1,m2中间。那么data1数据原来是在m2上操作的,现在变成m3上操作。而data2,data3都不用迁移。

大数据--一致性哈希算法