kafka分区

一、topic下引入partition的作用:
topic是逻辑的概念,partition是物理的概念。
为了性能考虑,如果topic内的消息只存于一个broker,那这个broker会成为瓶颈,无法做到水平扩展。kafka通过算法尽可能的把partition分配到集群的不同服务器上。
partition也可以理解为segment的封装。一个partition对应多个segment。一个segment包含一个数据文件和一个索引文件

二、kafka分区分配策略:

partition.assignment.strategy= range(默认值) 或 roundrobin

range策略:分区顺序排序,消费者按照字母排序。
partitions的个数除于消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽,那么前面几个消费者线程将会多消费一个分区。
假设有3个消费者11个分区
C1-0 将消费 0, 1, 2, 3 分区
C1-2 将消费 4, 5, 6, 7 分区
C1-3 将消费 8, 9, 10 分区
roundrobin策略:分区按照hashcode排序,消费者按照字母排序
假设有3个消费者11个分区
C1-0 将消费 0, 3, 6, 9 分区
C1-2 将消费 1, 4, 7, 10 分区
C1-3 将消费 2, 5, 8 分区

注意:
1、一个分区只能被一个消费者消费,但一个消费者可以消费多个分区的数据
2、新的api中预留了自己实现分配策略的可能性class org.apache.kafka.clients.consumer.RangeAssignor

三、分区修改./kafka-topics.sh --alter --topic topic1 --zookeeper zkip:2181/kafka --partitions 6