kafka初探
kafka之所以受到越来越多的青睐,与它所扮演的三大角色是分不开的的:
- 消息系统:kafka与传统的消息中间件都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,kafka还提供了大多数消息系统难以实现的消息顺序性保障及回溯性消费的功能。
- 存储系统:kafka把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效的降低了消息丢失的风险。这得益于其消息持久化和多副本机制。也可以将kafka作为长期的存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题日志压缩功能。
- 流式处理平台:kafka为流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理框架,比如窗口、连接、变换和聚合等各类操作。
1.1基本概念
kafka包含若干producer、若干broker、若干consumer以及一个zookeeper集群。zookeeper是kafka用来负责集群元数据管理、控制器选举等操作的。producer是负责将消息发送到broker的,broker负责将消息持久化到磁盘,而consumer是负责从broker订阅并消费消息。kafka体系结构如下所示。
(1)producer:生产者,也就是发消息的一方。负责生产消息投递到kafka中。
(2)consumer:消费者,接受消息的一方。消费者连接kafka并接受消息,进而进行相应的业务逻辑处理。
(3)broker:服务代理节点。对于kafka而言,broker可以简单地作为一个独立的kafka服务节点或kafka实例。大多数情况下也可以将broker看做一台kafka服务器,前提是只部署了一个kafka实例。一个或多个broker组成了一个kafka集群。
2.1kafka客户端开发
kafka0.9版本是Scala语言编写的客户端,0.9之后开始推出java语言编写的新版客户端。旧版客户端已经淘汰。一个正常的生产者逻辑需要具备以下几个步骤:
(1)配置生产者客户端参数及创建相应的生产者实例
(2)构建待发送的消息
(3)发送消息
(4)关闭生产者实例
2.1.1必要的参数配置
bootstrap.servers:生产客户端连接kafka集群所需的broker地址清单