Kafka 入门介绍【一遍了解Kafka内部构造】

概念

Kafka是一种高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中所有动作流数据。即Kafka是一个分布式的、可分区的、可复制的消息系统。

Kafka将消息以topic为单位进行归纳
将向Kafka topic发布消息的程序为priducers.
将预定topic并消费信息的程序称为consumer.
Kafka以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个broker.
producers通过网络将消息发送到Kafka集群，集群向消费者提供消息，如图：
Kafka 入门介绍【一遍了解Kafka内部构造】

Topics 和Logs

先了解Kafka提供的一个抽象概念:topic
一个topic是对一组消息的归纳。对每个topic，Kafka对它的日志进行了分区，如：

每个分区都由一系列有序的，不可变的消息组成，这些消息被连续的追加到分区中。分区中的每个消息都有一个连续的***叫做offset，用来在分区中唯一的标识这个消息。
在一个可配置的时间段内，Kafka集群保留所有发布的消息，不管这些消息有没有被消费。比如，如果消息的保存策略被设置为2天，那么在一个消息被发布的两天时间内，它都是可以被消费的。之后它将被丢弃以释放空间。Kafka的性能是和数据量无关的常量级的，所以保留太多的数据并不是问题。

分布式

每个分区在Kafka集群的若干服务中都有副本，这样这些持有副本的服务可以共同处理数据和请求，副本数量是可以配置的。副本使Kafka具备了容错能力
每个分区都由一个服务器作为“leader”，零或若干服务器作为“followers”，leader负责处理消息的读和写，followers则去复制leader.如果leaer down了，followers中的一台则会成为leader。集群中的每个服务都会同时扮演两个角色：作为它所持有的一部分分区的leader，同时作为其它分区的followers，这样集群就会具有较好的负载均衡。

Producers

Producers将消息发布到它指定的topic中，并负责决定发布到哪个分区。通常简单的由负载均衡机制随机选择分区，但也可以通过特定的分区函数选择分区。使用的更多的是第二种。

Consumers

发布消息通常有两种模式：队列模式（queuing）和发布-订阅模式（publish-subscribe）。队列模式中，consumers可以以同时从服务端读取消息，每个消息只被其中一个consumer读到；发布-订阅模式中消息被广播到所有的consumer中。Consumers可以加入一个consumer组，共同竞争一个topic，topic中的消息将被分到组中的一个成员中。同一组中的consumer可以在不同的程序中，也可以在不同的机器上。如果所有的cnsumer都在一个组中，这就成为了传统的队列模式，在各consumer中实现负载均衡。如果所有的consumer都在不同的组中，这就成为了发布-订阅模式，所有的消息都被分发到所有的consumer中。更常见的是，每个topic都有若干数量的consumer组，每个组都是一个逻辑上的“订阅者”，为了容错和更好的稳定性，每个组由若干consumer组成。这其实就是一个发布-订阅模式，只不过订阅者是个组而不是单个consumer。

由两个机器组成的集群拥有4个分区(P0-P3)2个consumer组.A组有两个consumerB组有四个。

Kafka有五个核心API

生产者API
允许应用程序将记录流发布到一个或多个Kafka主题
消费者API
允许应用程序订阅一个或多个主题并处理向其生成的记录流
流API
允许应用程序充当流处理器，从一个或多个主题消耗输入流，并产生输出流到一个或多个输出主题，从而有效地将输入流转换为输出流
连接器API
允许构建和运行可重用的生产者或使用者，将Kafka主题连接到现有的应用程序或数据系统。例如：连接到关系数据库的连接器可能捕获对表的每一项更改
Admin API（管理员API）
如图：

Kafka 入门介绍【一遍了解Kafka内部构造】

概念

Topics 和Logs

分布式

Producers

Consumers

Kafka有五个核心API

相关推荐