Flink 简介
参考Flink官方网站:https://flink.apache.org/
- Flink 有状态的流数据处理;
数据处理的状态一般指:数据ETL过程中产生的中间处理结果,记录数据ETL中的中间结果是为了确保数据处理的复用性及确保数据处理的正确性。
- Flink提供流数据和批数据处理API;
流处理 VS 批处理
- 业务场景不同:流数据处理偏向数据低延迟的业务场景,批处理偏向数据吞吐量高的业务场景;
- 数据处理模式不同:流处理模式:当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。批处理模式:当一条数据被处理完成后,序列化到缓存中,并不会立刻通过网络传输到下一个节点,当缓存写满,就持久化到本地硬盘上,当所有数据都被处理完成后,才开始将处理后的数据通过网络传输到下一个节点
- Flink 三段式数据流转:数据源-----> ETL------>ETL结果落地
ETL工具本质上是数据的三段式数据模式,但数据处理工具的本质区别可能也在于如下几方面:
- 数据量
- 数据延迟
- 灵活性
满足如上几方面的组合导致不同的数据处理工具,适用于不同的业务场景,造就底层架构设计的不同。
- Flink业务场景:
PS:Flink相关技术的使用及问题后面也都会不定时更新,希望得到技术大佬的指正与指教!