相关知识点
Hadoop:
HDFS
MapReduce(进行数据清洗)
YARN
Hadoop集群
Hive:
使用外部表
SQL
数据倾斜
基于元数据管理
SQL愈合转换为MapReduce
FLume(数据采集)
调度
初期:crontab、shell
后期:Azkaban
HUE:可视化界面
排查数据
项目:通用的一些知识点
开发流程
分工
应用场景
常用数据平台
集群规模及资源评估
通用离线处理架构
整体开发流程
- 数据采集
- ETL ****
- 将数据数据分析数据 移动到 外部表分区目录 ****
- 业务统计:SQL ==> dest table ****
- WebUi
架构图
