第一篇:大数据概述学习笔记
1、大数据概念
(1)什么是大数据
指是无法使用现有的工具提取、存储、共享、分析和处理的海量的、复杂的数据集合。
举例:
淘宝(数据量、数据变化快、数据复杂)
支付宝(支付)
(2)大数据有什么特点
4V
volume:量大
variety:数据源种类多
value:价值
velocity:快速
(3)大数据的常用工具
hadoop
hbase
hive
pig
zookeeper
storm
spark
flink等
(4)大数据的核心问题(重点)
(*)海量的数据如何存储?
分布式存储 : Hadoop HDFS
(*)海量数据如何计算与分析?
分布式计算:MapReduce计算模型
2、大数据的核心生态圈:
(1)一般意义上来讲hadoop生态圈
(2)hadoop生态圈包含内容
3、大数据的思想来源(重点)
(1)hadoop的HDFS分布式文件系统:(画图)
GFS:Google File System
(2)MapReduce的思想来源:PageRank
计算思想:
(3)HBASE的思想来源:bigtable
Hbase是一种构建与HDFS之上的一款非关系型数据库