云数据库HBase版产品优势与应用场景
云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 的一个分布式数据库,支持海量的PB级的大数据存储,适用于高吞吐的随机读写的场景。目前在阿里内部有数百个集群,10000台左右规模的集群,服务数百个业务线,在订单存储、消息存储、物联网、轨迹、wifi、安全风控、搜索等领域有较多的在线应用。 阿里云特别提供HBase产品化方案服务广大的中小型客户。
教学课程:云数据库HBase版使用教程
产品优势:
- 与其他厂商HBase产业优势对比
云HBase | EMR HBase或者ECS自建及其它友商 | |
---|---|---|
低成本 | 默认数据2副本,相比自建节约1个副本,存储成本降低1/3;支持冷热分离,冷数据存放在便宜的介质,并自动把热数据同步到冷数据 数据冷热分离 | 贵 |
一站式能力 | 支持多模式:KV、SQL、全文索引、时空、时序、图查询,支持X-Pack组件族,包括Phoenix、OpenTSDB、时空、Graph、solr及spark,提供一站式数据处理,存储和分析能力。 | 开源版本仅仅支持KV或者自己构建 |
产品可用性 | SLA保障,单集群99.9%,双集群99.99% | 无SLA,且有ecs可能落在同一个宿主机,宿主机挂,集群挂 |
小版本升级 | 阿里内部版本与云版本一致,不断优化性能,改进稳定性,通过一键升级体现,参考 小版本升级 | 无 |
产品数据可靠性 | 通过3副本,共享存储构建大集群,机架感知等方式保障数据可靠性,SLA保障,11个9 | 小集群的数据可靠性低 |
双活 | 支持双活 | 不支持 |
内核 | 性能提升50%~300% | 开源,没有优化,且很多patch是阿里贡献 |
延迟 | 99.9延迟SSD磁盘降低为40ms以内、YGC降低为15ms,基于OffHeap及阿里GC等优化 ,GC优化文章介绍 | 毛刺就多,抖动较大,99.9延迟 300ms+,YGC120ms+ |
备份恢复 | 数据备份及恢复 数据备份及恢复 | 不支持 |
高压缩 | 支持snappy及zstd 新型压缩算法,编码压缩文章介绍 | 支持有限 |
安全 | 支持账号密码访问,ACL | 不支持 |
动态扩容及添加节点 | 支持添加磁盘容量及节点、对业务无感知 | 无 |
支持分析 | 支持spark高性能分析(带支持) ,算子下推等优化,提升数倍性能 | 开源无性能优化 |
HBase专业运维 | 内部打磨8年,支持天猫双十一,阿里部署12000,如 大表region合并,自动识别热点、大scan等 | 无 |
- 与传统数据库对比
功能 | 分布式云HBase数据库 | 传统关系型数据库(mysql/pg) |
---|---|---|
扩展性 | 无缝扩容到2000台左右,且扩容业务无感知 | 单节点,再业务分库分表 |
事务 | 行内事务 | 行内及跨行事务 |
行数 | ~万亿+ | ~亿 |
列数 | ~百万+ | 1000? |
TPS | ~1亿+ | ~10w |
SQL支持 | 支持(标准SQL) | 支持 |
索引 | 支持(二级索引),配合solr支持全文索引 | 支持 |
应用场景
ApsaraDB for HBase的使用场景比较广泛,以至于很多客户无法把握他。以下我们大致列下,适合的场景:
HBase的设计之初是为了存储互联网,几乎所有非事务类结构化的存储需求都可以使用HBASE来满足。HBase是NoSql,讲的是Not only SQL,也是支持SQL及二级索引的。在整个数据的世界里,事务是比较少,占了不到1%的份额,大部分的数据存储都是无事务的。
目前阿里的使用情况:
在讲述具体的HBase场景,我们先看下HBase在整个数据处理大图之间的位置:
云HBase处于数据存储的位置,自带分析的功能
1、数据来源的途径有:
- 通过业务 ECS 直接写入到 云HBase之中
- 有一些消息中间件自带push功能,可以直接写入到HBase之中;有一些不行,需要拉取消息再转化处理后写入到HBase之中
- 通过流式系统,比如:SparkStreaming、Flink、Storm等流式引擎计算写入到云HBase之中
- 从离线同步数据到云HBase之中,一般为T+1同步
- 从关系型数据库同步数据到云Hbase之中,可以做到实时同步
- 在机器学习场景中,直接把云Hbase作为存储
2、云HBase的数据的去向:
- 云HBase自带Phoenix模块分析,支持百亿的毫秒级别分析
- 通过Spark等离线分析引擎分析
- ECS业务端查询,如Scan一些数据,在客户端展示
HBase天生适合物联网的场景,比如:单车、物流轨迹类 等等
满足安全风控、大数据处理、搜索等等具体的场景,一般跟流式系统、离线系统结合
存储包括各类数据,比如:日志、订单、交易数据、消息等等,在线实时写入,在实时查询。历史数据查询批量低,需要分层存储,云HBase预计在12月份支持冷热数据分离存储,降低存储成本
在百亿的数据量下,秒级别返回数据,适合 报表、统计等需求。
更多精品课程:
阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场)