数据分析与软件
参考学习《Druid实时大数据分析》
【数据分析】
数据分析:数据收集-->处理(格式转化、清洗)-->建模-->分析-->可视化,将数据转化为价值信息的过程。
领域
- 商务智能(Business Intelligence,BI)
- 数据挖掘(Data Mining,DM)
- 联机分析处理(On-Line Analytical Processing,OLAP)
- 人工智能(Artificial Intelligence,AI)
【主要软件的孵化时间】
【软件分类】
- 商业数据库
- 开源时序数据库
- 开源计算框架
- 开源数据分析软件
- 开源SQL on Hadoop
- 云端数据分析SaaS
[商业数据库]
(1)Vertica是一款基于列存储的MPP(massively parallel processing)架构的数据库。它可以支持存放多至PB(Petabyte)级别的结构化数据。Vertica是由关系数据库大师Michael Stonebraker(2014 年图灵奖获得者)所创建,于2011年被惠普收购并成为其核心大数据平台软件。列存储实时分析平台
- High Availability
- Automatic DB Design
- Advanced Compression
- Massively parallel processing( MPP)
- Column Orientation
- Application Integration
(2)Oracle Exadata 是核心由Database Machine(数据库服务器) 与 Exadata Storage Server (存储服务器) 组成的一体机硬件平台.https://baike.baidu.com/item/oracle%20exadata/10492560?fr=aladdin(3)Teradata
[开源时序数据库]
时序数据库记录过去时间的数据点信息,主要应用场景如服务器运维监控。OpenTSDB、InfluxDB
[开源计算框架]
- Hadoop:分布式系统基础计算框架,有完整的文件系统HDFS、MapReduce计算,K-V存储HBase,协调服务Zookeeper、SQL on Hadoop。适合大规模批处理
- Spark:基于RDD的类MapReduce通用计算框架,RDD缓存复用适合迭代和非结构化数据查询
[开源数据分析软件]
- Pinot:分布式列式数据存储系统,优秀的索引技术、准实时和批处理。刚起步,整体处理业务和Druid相似,待成熟
- Kylin:多维预聚合,基于hive表的缓存,多维计算存储于基于OLAP Cube中,目前不支持实时流处理
- Dremel:谷歌交互式数据分析系统,原理简介
- Drill:Apache开源版Dremel,http://drill.apache.org/
[开源SQL on Hadoop]
- Hive:基于Hadoop的数据仓库工具,将结构化的数据文件映射为表,已SQL转化为MR运行,查询慢
- Impala:实时交互SQL查询工具,MPP直接从HBase/HDFS中查询数据,不需MR,Parquet格式的列存储,速度快
- Presto:Facebook分布式SQL查询引擎,直接访问HDFS或其他数据存储层,不需MR,将SQL查询转化为分布式任务,完全内存进行计算