大数据平台架构的组成
01、大数据平台
是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。
02 典型大数据平台架构
由上到下,可分为三个部分:数据搜集、数据处理、数据输出与展示。
(1)、数据采集
将应用程序发作的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。
数据库同步一般用 Sqoop,日志同步可以选择 Flume,搜集的数据经过格式化转化后通过 Kafka 等音讯队列进行传递。
(2)数据处理
这部分是大数据存储与核算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等来读取 HDFS 上的数据进行核算,再将计算结果写入 HDFS。
(3)数据可视化
大数据核算发生的数据还是写入到 HDFS 中,但应用程序不能到 HDFS 中读取数据,所以有必要要将 HDFS 中的数据导出到数据库中。
数据同步导出相对比较简单,计算的数据都比较标准,稍作处理就可以用 Sqoop 之类的体系导出到数据库。这时,应用程序就可以直接拜访数据库中的数据,实时展现给用户。