深入理解Kafka_基本概念(1)
1、Kafka概念
Kafka是一个由Scala语言开发的,多分区,多副本,基于zookeeper协调的分布式消息系统
2、Kafka组成
生产者,broker,消费者,zookeeper集群
生产者:将消息发送到broker
broker:将收到的消息存储到磁盘中
消费者:从broker订阅并消费消息
zookeeper:负责kafka集群元数据的管理,控制器的选举等操作
3、Kafka架构图
4、Kafka特性及其作用
特性:高吞吐、可持久化、可水平扩展、支持流数据处理
常用作:
- 消息系统
- 存储系统
- 流式处理平台
5、 Kafka中术语名词
主题(Topic),分区(Partition),偏移量(offset),分区副本(Replica)
topic:Kafka中将消息以主题为单位进行归类,生产者生产的每条消息都需要指定发送到一个主题中
Partition:一个topic下面可以分多个分区,不同分区中消息是不同的,一个分区存储时可以看作是一个可追加的日志(Log)文件,分区可以分布在不同broker上面,一个主题可以横跨多个broker
offset:消息被追加到分区日志文件时,会分配一个特定的偏移量,是分区中消息的唯一标识,Kafka在同一个分区中通过偏移量保证消息顺序消费,offset不跨分区,只是分区有序而不是主题有序
Replica:副本之间是‘一主多从’的关系,leader负责读写请求,follower只负责从leader同步消息(同一时刻,可能存在消息滞后),副本之间保存消息相同;副本处于不同broker中,当leader失效时,重选举新的leader对外提供服务;保证了某个broker失效时服务仍然可用;
6、多副本架构:
注意点:
1、消费者也有一定容灾能力,消费者拉取消息时保存消费的具体偏移量,当消费者宕机恢复后从之前保存的消费位置重新拉取消费
2、主题,分区都只是通道,副本才是具体的消息数据
3、在副本数没有被完全复制完时,根据短板原则,消费者只能消费0-3的数据,由此可见Kafka既不是同步复制,也不是单纯的异步复制