Mongodb分片集群Sharding Cluster架构介绍
一、分片架构介绍
• Mongos 路由节点(对硬件的要求不高,只是网络开销比较大)
提供集群单一入口
转发应用端请求
选择合适数据节点进行读写
合并多个数据节点的返回(数据来自不同的分片,路由会做合并)
无状态(不牵扯到数据,宕了之后重新起一个就可以,影响较小)
建议至少2个(做LVS/NGINX的负载均衡)
• Config Servers配置节点
(重要,保存整个分片集群的配置)
保存着:分片节点的ip、端口、分片的策略、分片数据的分布、chunk迁移的状态。
提供集群元数据存储
分片数据分布的映射
很重要,建议做一主两从的复制集
• Shards 数据节点(发生大量的IO)
以复制集为单位
横向扩展
最大1024分片
分片之间数据不重复
所有分片在一起才可完成完整的业务数据访问
任何一个分片坏了,都会影响业务数据的访问,所以每个分片也要做高可用的复制集
二、MongoDB 分片集群特点
• 应用全透明,无特殊处理
• 数据自动均衡(balancer均衡器)
• 动态扩容,无须下线(扩容数据节点)
• 提供三种分片方式(范围、hash、zone)
三、分片集群数据分布方式
• 基于范围
• 基于 Hash
• 基于 zone
1、基于范围 range
缺点:容易有热点。
比如2个分片,一个分片存1-500w,一个分片存500w-1000w
但是热点数据是300w-400w。虽然数据是均衡的,但还是有热点数据,总有很忙/很闲的分片。
也可以建议做多条件的范围分区。
2、基于哈希 hash
优点:数据分布非常均匀,适合等值查询。
缺点:范围查询的效率低(因为分布的过于零散),将来mongos的合并merge会比较多。
3、基于zone 地域
适合:跨地域的多写场景。读写请求落到就近的节点上。