数据模型:

数据立方:

不要被立方一词给迷惑了,其实本质是N维体. 可以降维到点(方框) 立方只是一种,即三维. 即总请求量,总平均耗时,总io大小,总支付成功数.

一维点:

1. 多指标,行转列.成表.: select sum/avg/max

2. 单指标,方框. select sum

二维面(表格):

三维 立方体

钻取即增加维度: select sum/avg/max from grou by city; 结合到人工交互层面(web系统) 就是点击按钮展开(即下钻功能).

olap中的数据立方体分析

在没有采取任何的优化措施的时候，Kylin会对每一个维度组合进行预计算，若有4个维度，则会有将近2^4 = 16个Cuboid需要进行计算。但是我们知道很多维度是：

1.不需要参与计算或者说不常用的
2.与其他的维度有一定的包含关系的
3.一定会跟其他维度一起进行查询的

如果有10个维度那会有2^10=1024个Cuboid需要进行计算，虽然每个Cuboid的大小存在很大的差异，但是单单想到Cuboid的数量就足以让人想象这样大小的Cube对于构建引擎、存储引擎的压力会有多么巨大，所以在构建维度较多的Cube时，剪枝优化是非常重要的。

众所周知，Apache Kylin 的主要工作就是为源数据构建 N 个维度的 Cube，实现聚合的预计算。理论上而言，构建 N 个维度的 Cube 会生成 2n2n个 Cuboid，如图 1 所示，构建一个 4 个维度（A，B，C, D）的 Cube，需要生成 16 个Cuboid.

全部生成会数据很大,需要根据业务来看那些组合是否需要

用户选择的维度中常常会出现具有层级关系的维度。例如对于国家（country）、省份（province）和城市（city）这三个维度，从上而下来说国家／省份／城市之间分别是一对多的关系。也就是说，用户对于这三个维度的查询可以归类为以下三类:

其他组合就别减掉了.

用户有时会对某一个或几个维度特别感兴趣，所有的查询请求中都存在group by这个维度，那么这个维度就被称为必要维度，只有包含此维度的Cuboid会被生成（如图2）

olap中的数据立方体分析

olap: