CGB2003课堂笔记

day01

大数据项目:
京淘电商用户日志流量分析系统

概念:
大数据指:海量数据及其处理模式

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

大数据技术:
1.数据获取
爬虫: python
历史数据: Hive数仓\数据集市\数据湖
日志:log4j\Flume
2.数据清洗
逻辑清洗,sql清洗
if(user != null){…}
select user_name from user where age >= 18
3.数据存储
Hadoop.HDFS(无限存储)
4.数据处理
Hadoop.Mapreduce(离线)
Flink(在线).storm.spark
Kafka(MQ) rabbit(1.2w) Kafka(25-50w)
课前资料: 链接:https://pan.baidu.com/s/1RL01spZ_WjvKuHclYbiYNA
提取码:tujl
复制这段内容后打开百度网盘手机App,操作更方便哦

1.项目设计,大数据基本理论
2.基本环境搭建,Hadoop理论
3.Hadoop+Flume
4.项目整合+Kafka+Flink
5.Flink详解+项目实现

初始化Eclipse : 改字体, 改编码,改JDK,改maven
CGB2003课堂笔记