摸鱼等退休

2021-01-20 09:35 门头沟学院项目经理

关注

国人之光：大数据分析神器Apache Kylin

一、简介

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光，是因为它是首个由国人主导的Apache顶级开源项目，能在亚秒内查询巨大的表。

二、基本概念

先了解一下几个概念，如下有一张表

ID	客户号	交易日期	交易类型	金额
1	001	20201230	工资代发	1000000
2	002	20210101	转账	66666
3	003	20210115	信用卡还款	1888

查询某个客户在哪个时间进行某种交易的金额，这种是多维分析，其中客户号、交易日期和交易类型是维度（Dimensions），金额是度量（Measures）。

根据表格中三个维度一个度量，可以画出如下图形

对于一个多维模型，在查询上有多种组合，比如一维的：客户号/交易日期/交易类型二维的：客户号+交易日期/客户号+交易类型/交易日期和交易类型三维的：客户号+交易日期+交易类型对于每一种组合，称之为Cuboid，这这些组合的统一，则是Cube。Cube定义了使用的模型、模型的维度和度量等信息。

三、作用及原理

有些读者就要说了：概念讲了一堆，就是不说它到底为什么出现，解决什么问题，难怪阅读量这么少

别急，这不就准备讲了嘛。Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计的。

对于效率要求较高的大规模数据集的查询，尤其多维查询的时候，数据仓库中一般存在事实表和维度表，需要关联很多维度表，这就给查询带来一定的压力，查询效率低下。为了解决这个问题，Kylin应运而生。

但是Kylin为什么快呢？

主要是因为它的预计算，它将多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。说到底就是用空间换时间。

大致流程：将数据源(比如Hive)中的数据按照指定的维度和指标，由计算引擎MapReduce离线计算出所有可能的查询结果(即Cube)存储到HBase中。HBase中每行记录的Rowkey由各维度的值拼接而成，度量会保存在column family中。为了减少存储代价，会对维度和度量进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有良好的快速响应和高并发。

四、Kylin的架构

Kylin的架构主要有这几个部分：

源数据：Hive、Kafka、RDBMS等；

对外查询接口：REST API、JDBC/ODBC；

存储引擎：HBase；

构建Cube的计算引擎。

其中构建Cube的计算引擎模块如下：

REST Server：是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。

Query Engine：当cube准备就绪后，查询引擎就能够获取并解析用户查询。

Routing：查询路由，负责将解析的SQL生成的执行计划转换成cube缓存的查询，若查询没办法从cube缓存中获取，则下压至数据源进行查询。

Metadata：Kylin是由元数据驱动的。元数据管理工具是一大关键性组件，用于对保存在Kylin当中的所有元数据进行管理，其中包括最为重要的cube元数据。

Cube Build Engine：这套引擎的作用在于处理所有离线任务。

五、总结

本文大概介绍了Kylin以及一些相关的概念和原理、架构。更多内容可以去Kylin 官网进行了解.

大数据从入门到放弃文章被收录于专栏

写点大数据相关的内容，一起交流进步

全部评论

推荐最新楼层

09-29 12:55

欣旺达_嵌入式软件工程师(准入职员工)

欣旺达内推，欣旺达内推码

欣旺达技术面-普通的面经一志愿测评补做了也一直没给我推进，直接快进到二志愿了 1. 无刷电机控制方案，驱动IC控制吗2. 自制的无刷电机驱动板包含哪些部分3. 无刷电机控制电路有几对mos管驱动4. 电机驱动电路上管mos和下管mos的区别（H桥5. 怎么避免上管和下管同时导通的6. 会电机控制算法和驱动板绘制？7. 电机堵转怎么检测的8. 堵转保护做了哪些（硬件更快，软件检测慢了点9. Mos管选型参数10. 米勒定理是什么11. 电机驱动管mos烧坏的什么情况12. 现在春招还在找的原因13. 哪里人14. 欣旺达了解过吗反问1. 面评2. 这个岗位看重应届生什么3. 培养方案：一个月生产...

点赞评论收藏

分享

09-29 11:53

睿琪软件_产品经理(准入职员工)

睿琪软件内推，睿琪软件内推码

杭州睿琪｜提前批HRBP（产品经理）25summer睿琪产品经理面经HR面主要就问申请动机过往经历以及介绍岗位等，甚至还问了高考成绩排名，听下来公司文化还是比较狼性，直接明确了没办法wlb，而且一直给我推用户增长的岗位，但能听出来HR还是比较懂技术和业务。一面主要包括以下内容：简历深挖（有压力测试），过往经历中有什么值得改进的，有哪些适合做产品经理的特质，从用户视角具体聊一个你认为很好的产品，产品有哪些可以优化的地方，海内外产品形态差异的主要原因（简洁vs复杂），有没有识别到生活中没满足到的需求，自己想做一款什么样的产品（聊了一下留学咨询和职业咨询）反问环节面试官也分享了很多经验，整体观感还是...

点赞评论收藏

分享

08-28 14:40

浙江工业大学 Java

根本没投海康，但是刚才突然收到笔试，有没有uu知道这是什么情况😂

站队站对牛：还是浙江学校欢迎

投递海康威视等公司10个岗位

点赞评论收藏

分享

08-17 15:54

临沂大学 Java

26届现在无实习是继续找实习还是直接包装实习找工作啊

rt，楼主26届毕业现在还没有实习，秋招是继续找实习还是直接包装实习找工作啊😭

max666a：去找实习把，没实习就包装实习太难了

点赞评论收藏

分享

09-29 10:58

四川大学 ARM工程师

睿创微纳三志愿嵌入式一面面经

📍面试公司：睿创微纳🕐面试时间：2025-09💻面试岗位：嵌入式（前面的志愿面完挂了，现在走第三志愿）❓面试问题：1.自我介绍2.问实习经历，写的驱动有什么用，遇到哪些困难3.QT多线程编程为什么不直接继承QThread而是用workerObject4.QT的对象树5.为什么不在子线程里操作UI6.DSP芯片和MCU的区别7.项目中视频的编码和解码用的什么8.C++多态9.虚函数表在内存的什么位置10.const在C++和C中的区别11.static作用12.进程和线程有什么不同13.协程用过吗14.接触过哪些arm芯片15.C++修饰的类内成员变量怎么初始化16.解释一下select多...

查看17道真题和解析

点赞评论收藏

分享

评论

1

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI创作大赛：牛可乐的国庆之旅 #

12895次浏览 188人参与

# 材料专业可以靠半导体脱坑吗？ #

23130次浏览 129人参与

# 携程求职进展汇总 #

636309次浏览 4648人参与

# 通信硬件人社招/春招/实习投递现状 #

29403次浏览 946人参与

# 国庆假期，给大脑放个假 #

1619次浏览 22人参与

# 大学四年该怎么过，才不算浪费时间？ #

12122次浏览 72人参与

# 深信服秋招来了 #

270779次浏览 2905人参与

# 五一假期，你打算“躺”还是“卷”？ #

80438次浏览 715人参与

# 你小时候最想从事什么职业 #

121229次浏览 1891人参与

# 海康威视求职进展 #

106283次浏览 515人参与

# 网申一定要掌握的小技巧 #

13034次浏览 74人参与

# 2025，我想...... #

72994次浏览 606人参与

# 长江存储求职进展汇总 #

57250次浏览 227人参与

# 国庆放假，你还会投简历吗？ #

9559次浏览 108人参与

# 牛友的国庆旅行碎片 #

6648次浏览 55人参与

# 国庆放假，你还会主动学习吗？ #

13746次浏览 67人参与

# 查收我的offer竞争力报告 #

215274次浏览 1397人参与

# 你认为工作的意义是什么 #

184139次浏览 1148人参与

# 你认为哪个岗位找工作最卷 #

51184次浏览 228人参与

# 设计人如何选offer #

151643次浏览 795人参与

# 距离放假还有_天，我已经…… #

15113次浏览 184人参与

# 教师节，你送祝福了吗 #

6001次浏览 52人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务