大数据平台与传统数仓的区别
基于关系数据库的传统数仓
➢ 基本特点
• 数据源:关系数据库(如Oracle、DB2、MySQL等)
• 数据仓库和数据集市:关系数据库或MPP(如Teradata、Vertica、Greenplum)
• 数据类型:结构化数据
• 数据规模:GB~TB级
• 数据分析:用SQL进行简单的统计报表分析
✓ 数据规模巨大(Volume)
✓ 生成和处理速度极快(Velocity)
✓ 数据类型多样(Variety)
✓ 价值巨大但密度较低(Value)
传统数仓面临的挑战- 越来越多样的业务需求
离线业务与在线业务并存
分析型业务与检索型业务并存
结构化数据与非结构化数据并存
对事务支持的需求
传统数仓面临的挑战- 四个能力不足
- 存储管理能力不足
无法支撑海量多源异构数据的灵活高效存储
无法实现基于SQL的异构数据统一管理和访问
- 综合搜索能力不足
无法实现PB级半/非结构化数据的组合、全文和语义搜索
无法实现千亿级数据搜索的秒级返回
- 分析挖掘能力不足
计算任务井喷式增长,系统不堪重负
无法支撑PB级异构数据的快速分析和深度挖掘
- 实时处理能力不足
无法实现流式数据的实时接入、复杂事件处理和机器学习
开发门槛高,不支持用SQL编写流应用