学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)

一、学习大数据需要的基础

java SE,EE(SSM)
90%的大数据框架都是java写的
MySQL
SQL on Hadoop
Linux
大数据的框架安装在Linux操作系统上

二、需要学什么

2.1:大数据离线分析

一般处理T+1数据
(T+1:T表示处理时间(一天,一周,或者一月,一般不会一年处理一次数据) +1:表示处理一次数据)
Hadoop :(common、HDFS、MapReduce、YARN)
环境搭建!
重点:处理数据的思想
Hive:
hive是基于Hadoop的一个数据仓库工具!
可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能可以将sql语句转换为MapReduce任务进行运行!
优点:
是学习成本低,
可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
存储特点:
面向行存储,就像传统的数据库,先定义好你的字段,你某一个字段是空的就是以null的形式存储在内存中,

你的null存储多了就造成了极大的资源浪费!所以就需要学习HBase

学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)

HBase
基于HDFS的NOSQL(not only SQL:不仅仅是数据库)数据库
存储特点:

面向列的存储,脱离传统数据库的存储方式,没有规定的字段,你要存储什么数据你通过键值对的形式存储自己(键就是你的字段,value的就是你的值)

                行存储和列存储的对比:

             学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)

协作框架:
sqoop(HDFS 和 RDBMS 的桥梁)
在关系数据库和noSQL数据库架中间起一座桥梁,让他们可以互导数据!
flume:
收集日志文件中信息,存入数据库中!

调度框架
anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
利用调度框架在固定时间,自动调用flume等协作框架向noSQL数据库导入数据!
扩展前沿框架:
kylin:分析框架;
impala:分析框架(游戏公司常用;偏向实时分析!)
ElasticSearch(ES:检索框架!)

2.2:大数据实时分析

以spark框架为主
Scala:    OOP +    FP 
    面向对象编程     面向函数编程

sparkCore:类比MapReduce
sparkSQL:类比hive
sparkStreaming:实时数据处理
kafka:消息队列
前沿框架扩展:flink  
阿里巴巴 blink (阿里重写flink出现的blink)

2.3:大数据机器学习(扩展)

spark MLlib:机器学习库
pyspark编程:Python和spark的结合
推荐系统
python数据分析

Python机器学习

                                                学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)

作者:唐平                                                                                                                                部分信息来源于网络

时间:2018-06-09