HBase基本介绍

1、Hbase是hadoop领域的的数据库
a)传统数据库遇到的问题
i.数据量很大的时候无法存储
ii.没有很好的备份机制
iii.数据达到一定数量开始缓慢,很大的话基本无法支撑
b)HBase优势
i.线性扩展,随着数据量增多可以通过节点扩展进行支撑
ii.数据存储在hdfs上,备份机制健全
iii.通过zookeeper协调查找数据,访问速度快

2、Hbase是面向列存储的列式数据库,能够实时地随机访问超大规模数据集,是对HDFS的有力补充。
a)行式数据库优缺点
i.数据在表中的位置空间是确定的,指针在访问只要知道首地址就可以高效获取其他数据
ii.但在常用的可能只是所有列中的部分列的数据,可是行式数据库会自动查询所有的列,只是在客户端进行数据的过滤,会浪费大量的带宽和空间
b)列式数据库优缺点
i.一张不规则的表(人物画像)每行属性有大量的null
ii.类似于交错数组,只使用在特定的领域(只需要接入数据,存储数据非常非常快!)
总的来说,行式数据库:稳定,查询方便,但存储数据慢;列式数据库:存储数据非常非常快

3、逻辑模型
a)表 近似于行式数据库的表
b)行 近似于行式数据库的行(相同的时间戳)
c)列 是不能脱离列簇独立存在的,在行式数据库中没有
d)行键 近似于行式数据库的主键
e)时间戳 类似于timestamp 天然在,不需要用户自己创建

4、物理模型
Hbase数据在进行存储时,是按照行健存储。会自己比较行健大小后进行存储
a)列簇 是单独存储一系列列的文件

5、存储模型
a)Region
i.Table在行的方向上分割为多个Region,一个region由[startkey,endkey]表示,每个Region分散在不同的RegionServer中散在不同的RegionServer中

6、体系结构
a)主从式结构,主节点称作master,从节点称为region server。
b)工作方式
HBase基本介绍