深入理解Kafka_基本概念(1)

1、Kafka概念

Kafka是一个由Scala语言开发的,多分区,多副本,基于zookeeper协调的分布式消息系统

2、Kafka组成

生产者,broker,消费者,zookeeper集群

生产者:将消息发送到broker

broker:将收到的消息存储到磁盘中

消费者:从broker订阅并消费消息

zookeeper:负责kafka集群元数据的管理,控制器的选举等操作

3、Kafka架构图

深入理解Kafka_基本概念(1)

4、Kafka特性及其作用

特性:高吞吐、可持久化、可水平扩展、支持流数据处理

常用作:

  1.  消息系统
  2.  存储系统
  3. 流式处理平台

5、  Kafka中术语名词

主题(Topic),分区(Partition),偏移量(offset),分区副本(Replica)

topic:Kafka中将消息以主题为单位进行归类,生产者生产的每条消息都需要指定发送到一个主题中

Partition:一个topic下面可以分多个分区,不同分区中消息是不同的,一个分区存储时可以看作是一个可追加的日志(Log)文件,分区可以分布在不同broker上面,一个主题可以横跨多个broker

offset:消息被追加到分区日志文件时,会分配一个特定的偏移量,是分区中消息的唯一标识,Kafka在同一个分区中通过偏移量保证消息顺序消费,offset不跨分区,只是分区有序而不是主题有序

Replica:副本之间是‘一主多从’的关系,leader负责读写请求,follower只负责从leader同步消息(同一时刻,可能存在消息滞后),副本之间保存消息相同;副本处于不同broker中,当leader失效时,重选举新的leader对外提供服务;保证了某个broker失效时服务仍然可用;

6、多副本架构:

深入理解Kafka_基本概念(1)

注意点:

1、消费者也有一定容灾能力,消费者拉取消息时保存消费的具体偏移量,当消费者宕机恢复后从之前保存的消费位置重新拉取消费

2、主题,分区都只是通道,副本才是具体的消息数据

3、在副本数没有被完全复制完时,根据短板原则,消费者只能消费0-3的数据,由此可见Kafka既不是同步复制,也不是单纯的异步复制

深入理解Kafka_基本概念(1)