Kafka 入门介绍【一遍了解Kafka内部构造】
概念
Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中所有动作流数据。即Kafka是一个分布式的、可分区的、可复制的消息系统。
Kafka将消息以topic为单位进行归纳
将向Kafka topic发布消息的程序为priducers.
将预定topic并消费信息的程序称为consumer.
Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker.
producers通过网络将消息发送到Kafka集群,集群向消费者提供消息,如图:
Topics 和Logs
先了解Kafka提供的一个抽象概念:topic
一个topic是对一组消息的归纳。对每个topic,Kafka对它的日志进行了分区,如:
每个分区都由一系列有序的,不可变的消息组成,这些消息被连续的追加到分区中。分区中的每个消息都有一个连续的***叫做offset,用来在分区中唯一的标识这个消息。
在一个可配置的时间段内,Kafka集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为2天,那么在一个消息被发布的两天时间内,它都是可以被消费的。之后它将被丢弃以释放空间。Kafka的性能是和数据量无关的常量级的,所以保留太多的数据并不是问题。
分布式
每个分区在Kafka集群的若干服务中都有副本,这样这些持有副本的服务可以共同处理数据和请求,副本数量是可以配置的。副本使Kafka具备了容错能力
每个分区都由一个服务器作为“leader”,零或若干服务器作为“followers”,leader负责处理消息的读和写,followers则去复制leader.如果leaer down了,followers中的一台则会成为leader。集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的leader,同时作为其它分区的followers,这样集群就会具有较好的负载均衡。
Producers
Producers将消息发布到它指定的topic中,并负责决定发布到哪个分区。通常简单的由负载均衡机制随机选择分区,但也可以通过特定的分区函数选择分区。使用的更多的是第二种。
Consumers
发布消息通常有两种模式:队列模式(queuing)和发布-订阅模式(publish-subscribe)。队列模式中,consumers可以以同时从服务端读取消息,每个消息只被其中一个consumer读到;发布-订阅模式中消息被广播到所有的consumer中。Consumers可以加入一个consumer组,共同竞争一个topic,topic中的消息将被分到组中的一个成员中。同一组中的consumer可以在不同的程序中,也可以在不同的机器上。如果所有的cnsumer都在一个组中,这就成为了传统的队列模式,在各consumer中实现负载均衡。如果所有的consumer都在不同的组中,这就成为了发布-订阅模式,所有的消息都被分发到所有的consumer中。更常见的是,每个topic都有若干数量的consumer组,每个组都是一个逻辑上的“订阅者”,为了容错和更好的稳定性,每个组由若干consumer组成。这其实就是一个发布-订阅模式,只不过订阅者是个组而不是单个consumer。
由两个机器组成的集群拥有4个分区(P0-P3)2个consumer组.A组有两个consumerB组有四个。
Kafka有五个核心API
-
生产者API
允许应用程序将记录流发布到一个或多个Kafka主题 -
消费者API
允许应用程序订阅一个或多个主题并处理向其生成的记录流 -
流API
允许应用程序充当流处理器,从一个或多个主题消耗输入流,并产生输出流到一个或多个输出主题,从而有效地将输入流转换为输出流 -
连接器API
允许构建和运行可重用的生产者或使用者,将Kafka主题连接到现有的应用程序或数据系统。例如:连接到关系数据库的连接器可能捕获对表的每一项更改 -
Admin API(管理员API)
如图: