大数据实战项目(1)-项目简介、开发技术、工具、架构等
项目目标
- 完成大数据项目的架构设计,安装部署,架构继承与开发,用户可视化交互设计
- 完成实时在线数据分析
- 完成离线数据分析
具体功能
- 捕获用户浏览日志信息(TB)
- 实时分析前N名流量最高的新闻话题
- 实时统计当前线上已曝光的新闻话题
- 统计哪个时段用户浏览量最高
- 报表展示
工具、技术、语言
开发工具
- VMware Workstation
- CentOS 6.4
- Xshell 6
- FileZilla
- IntelliJ IDEA 2018
- Notepad++
- maven-3.6.0
项目技术点
- zookeeper-3.4.5-cdh5.10.0
- hadoop-2.6.0
- hbase-1.0.0-cdh5.4.0
- spark-2.2.0
- kafka_2.11-0.10.0.0
- flume-1.7.0-bin
- hive-2.1.0
- hue-3.9.0-cdh5.15.0
- mysql
- J2EE
- Websocket
- Echarts
项目语言
- jdk1.8.0_191
- scala-2.11.12
- shell
架构、数据流程、资源规划
数据流程
(图片来自于所学课程)
集群资源规划
bigdata-pro01.bigDAta.com | bigdata-pro02.bigDAta.com | bigdata-pro03.bigDAta.com | |
---|---|---|---|
HDFS | NameNode DataNode | NameNode DataNode | DataNode |
YARN | RescourceManager NodeManager | RescourceManager NodeManager | NodeManager |
ZooKeeper | ZooKeeper | ZooKeeper | ZooKeeper |
Kafka | Kafka | Kafka | Kafka |
HBase | Master RegionServer | Master RegionServer | RegionServer |
Flume | 日志合并预处理 | 日志采集 | 日志采集 |
MySQL | MySQL | ||
Spark | Spark worker | Spark master worker | Spark worker |
Hive | Hive | ||
Hue | Hue |