大数据平台架构的组成

01、大数据平台

是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

02 典型大数据平台架构

大数据平台架构的组成
由上到下,可分为三个部分:数据搜集、数据处理、数据输出与展示。

(1)、数据采集

将应用程序发作的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。

数据库同步一般用 Sqoop,日志同步可以选择 Flume,搜集的数据经过格式化转化后通过 Kafka 等音讯队列进行传递。

(2)数据处理

这部分是大数据存储与核算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等来读取 HDFS 上的数据进行核算,再将计算结果写入 HDFS。

(3)数据可视化

大数据核算发生的数据还是写入到 HDFS 中,但应用程序不能到 HDFS 中读取数据,所以有必要要将 HDFS 中的数据导出到数据库中。

数据同步导出相对比较简单,计算的数据都比较标准,稍作处理就可以用 Sqoop 之类的体系导出到数据库。这时,应用程序就可以直接拜访数据库中的数据,实时展现给用户。