大数据--一致性哈希算法

题目：

工程师尝试用服务器集群来设计和实现数据缓存，以下是常见的策略。

1，无论添加、查询、删除数据，都先将数据ID通过哈希函数转换成哈希值key。

2,有N台机器，则 key%N 为该数据所属的机器编号。无论是添加、删除、查询都在这台机器上进行，请分析这种话缓存策略带来的问题，并提出改进方案。

思路：

该缓存方式弊端：如果增加、删除机器-->那么N会变，根据ID重新计算key,重新%N’，然后会有很多数据重新迁移到新的机器上，代价大。

解决方案：一致性哈希算法：

假设id通过哈希函数计算后的结果为0~2^32. 这些key首位相连构成环形分布，假设有N=3台机器根据哈希函数也处在环中，那么id1顺时针找到距离最近的机器Computer，id1的所有添加、删除查询操作都在这个上面。如图。

大数据--一致性哈希算法

这样做的好处是，添加删除机器时，数据迁移的代价小。

大数据--一致性哈希算法

添加新机器m3，经过哈希函数计算m3的位置在m1,m2中间。那么data1数据原来是在m2上操作的，现在变成m3上操作。而data2，data3都不用迁移。

大数据--一致性哈希算法