淘宝双11大数据分析(环境篇)

案例分析

前言

通过本案例,你可以:

  1. 熟悉在 Linux 系统中安装 Hadoop 集群、安装 Mysql 数据库,安装 Sqoop 数据迁移工具,安装 Spark ,安装 Hive 数据仓库。
  2. HDFS 分布式文件系统中创建文件夹、上传文件。
  3. Hive 中建立表,使用 HiveHDFS 中的文件进行操作,使用 HQL 进行业务查询。
  4. 使用 SqoopHive 中的数据迁移到 Mysql 中。
  5. 了解 SparkMLlib自带的工具,使用 Spark-Shell 编程。使用 Spark 读取 csv 文件,并分析数据。
  6. Web 项目整合 ECharts,可视化展示数据分析结果。

数据分析流程

淘宝双11大数据分析(环境篇)

环境准备

软件要求

软件/插件/编程语言等 版本
Linux 系统 CentOS 7
JDK 1.8.0_161
MySQL 5.7.26
Hadoop 2.7.7
Scala 2.11
Spark 2.4.4
Hive 2.3.6
Sqoop 1.4.7
Idea 2018版
ECharts 3.4.0

硬件要求

本案例可以在单机上完成(即伪分布式环境),也可以在集群环境下完成。**由于硬件限制,我的所有操作均在伪分布式环境下完成。**单机的要求, 8 G 以上内存,500 G 磁盘存储。

环境搭建

  1. 安装 Linux 系统。(参考本人博客:VMware 安装 Linux 系统(CentOS 7 图文教程)
  2. Linux 安装 JDK。(参考本人博客:Linux 安装 JDK(图文教程)
  3. Hadoop 伪分布式搭建。(参考本人博客:Hadoop 集群搭建详细步骤)另:本次使用的是仅主机模式,主机名为centos2020(使用命令:hostnamectl set-hostname centos2020)。
  4. MySQL 安装。(参考本人博客:Linux 安装 MySQL
  5. Linux 安装 Hive 。(参考本人博客:Linux 安装 Hive
  6. Linux 安装 Sqoop。(参考本人博客:Linux 安装 Sqoop
  7. Linux 安装 Spark(单机版,参考本人博客:Linux 安装 Spark
  8. echarts 下载