1. 整体技术流程及架构

1.1数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目，其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤：

数据采集

数据采集概念，目前行业会有两种解释：一是数据从无到有的过程（web服务器打印的日志、自定义采集的日志等）叫做数据采集；另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。
关于具体含义要结合语境具体分析，明白语境中具体含义即可。

数据预处理

通过mapreduce程序对采集到的原始日志数据进行预处理，比如清洗，格式整理，滤除脏数据等，并且梳理成点击流模型数据。

数据入库

将预处理之后的数据导入到HIVE仓库中相应的库和表中。

数据分析

项目的核心内容，即根据需求开发ETL分析语句，得出各种统计结果。
（ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。）

数据展现

将分析所得数据进行数据可视化，一般通过图表进行展示。

1.2 系统整体架构

大数据项目——网站流量日志数据分析-架构实现思路
相对于传统的BI数据处理，流程几乎差不多，但是因为是处理大数据，所以流程中各环节所使用的技术则跟传统BI完全不同：
数据采集：定制开发采集程序，或使用开源框架Flume
数据预处理：定制开发mapreduce程序运行于hadoop集群
数据仓库技术：基于hadoop之上的Hive
数据导出：基于hadoop的sqoop数据导入导出工具
数据可视化：定制开发web程序(echarts)
整个过程的流程调度：hadoop生态圈中的azkaban工具

大数据项目——网站流量日志数据分析-架构实现思路

2.处理的数据说明

大数据项目——网站流量日志数据分析-架构实现思路

大数据项目——网站流量日志数据分析-架构实现思路

文章目录

1. 整体技术流程及架构

1.1数据处理流程

数据采集

数据预处理

数据入库

数据分析

数据展现

1.2 系统整体架构

2.处理的数据说明

相关推荐