Apache Kylin Cube 的构建过程

死siua11 发表于 2017-12-24 18:48:45

　　　　　　　　　　　　　　　　　　　　　　　　　　　　逐层算法　　如上图所示，展示了一个4维的Cube构建过程。
　　此算法的Mapper和Reducer都比较简单。Mapper以上一层Cuboid的结果（Key-Value对）作为输入。由于Key是由各维度值拼接在一起，从其中找出要聚合的维度，去掉它的值成新的Key，并对Value进行操作，然后把新Key和Value输出，进而Hadoop MapReduce对所有新Key进行排序、洗牌（shuffle）、再送到Reducer处；Reducer的输入会是一组有相同Key的Value集合，对这些Value做聚合计算，再结合Key输出就完成了一轮计算。
　　每一轮的计算都是一个MapReduce任务，且串行执行；一个N维的Cube，至少需要N次MapReduce Job。

页: [1]

运维网's Archiver

Apache Kylin Cube 的构建过程