Kylin大数据分析-大数据

捐助

Kylin大数据分析

作者：人情世故2017

6343 次浏览

2020-6-19

编辑推荐:

本篇文章首先简单介绍一下Kylin是什么、Kylin的核心概念，其次介绍了Kylin运行原理以及Kylin服务器模式，希望对您的学习有所帮助。
本文来自CSDN，由火龙果软件Alice编辑、推荐。

1.概述

1.1 Kylin是什么

Apache Kylin（Extreme OLAP Engine for Big Data）是一个开源的分布式分析引擎，为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准SQL查询及多维分析（OLAP）功能，提供亚秒级的交互式分析能力。

1.2 Kylin的由来

Apache Kylin，中文名麒麟，是Hadoop动物园的重要成员。Apache Kylin是一个开源的分布式分析引擎，最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持大规模数据，能够处理TB乃至PB级别的分析任务，能够在亚秒级查询巨大的Hive表，并支持高并发。

Apache Kylin于2014年10月在github开源，并很快在2014年11月加入Apache孵化器，于2015年11月正式毕业成为Apache顶级项目，也成为首个完全由中国团队设计开发的Apache顶级项目。于2016年3月，Apache Kylin核心开发成员创建了Kyligence公司，力求更好地推动项目和社区的快速发展。

1.3 为什么需要Kylin

在大数据的背景下，Hadoop的出现解决了数据存储问题，但如何对海量数据进行OLAP查询，却一直令人十分头疼。

企业中大数据查询大致分为两种：即席查询和定制查询。

① 即席查询

Hive、SparkSQL等OLAP引擎，虽然在很大程度上降低了数据分析的难度，但它们都只适用于即席查询的场景。它们的优点是查询灵活，但是随着数据量和计算复杂度的增长，响应时间不能得到保证。

② 定制查询

多数情况下是对用户的操作做出实时反应，Hive等查询引擎很难满足实时查询，一般只能对数据仓库中的数据进行提前计算，然后将结果存入Mysql等关系型数据库，最后提供给用户进行查询。

在上述背景下，Apache Kylin应运而生。不同于"大规模并行处理"Hive等架构，Apache Kylin采用"预计算"的模式，用户只需要提前定义好查询维度，Kylin将帮助我们进行计算，并将结果存储到HBase中，为海量数据的查询和分析提供亚秒级返回，是一种典型的"空间换时间"的解决方案。Apache Kylin的出现不仅很好地解决了海量数据快速查询的问题，也避免了手动开发和维护提前计算程序带来的一系列麻烦。

2.核心概念

2.1 数据仓库

Data Warehouse，简称DW，中文名数据仓库，是商业智能（BI）中的核心部分。主要是将不同数据源的数据整合到一起，通过多维分析等方式为企业提供决策支持和报表生成。

数据仓库与数据库主要区别：用途不同

①、数据库面向事务，而数据仓库面向分析。

②、数据库一般存储在线的业务数据，需要对上层业务的改变做出实时反应，涉及到增删查改等操作，所以需要遵循三大范式，需要ACID。而数据仓库中存储的则主要是历史数据，主要目的是为企业决策提供支持，所以可能存在大量数据冗余，但利于多个维度查询，为决策者提供更多观察视角。

在传统BI领域中，数据仓库的数据同样存储在Oracle、MySQL等数据库中，而在大数据领域中最常用的数据仓库就是Apache Hive，Hive也是Apache Kylin默认的数据源。

2.2 OLAP与OLTP

OLAP（Online Analytical Process），联机分析处理，以多维度的方式分析数据，一般带有主观的查询需求，多应用在数据仓库。

OLTP（Online Transaction Process），联机事务处理，侧重于数据库的增删查改等常用业务操作。

2.3 维度和度量

维度和度量是数据分析领域中两个常用的概念。

简单地说，维度就是观察数据的角度。比如气象站的采集数据，可以从时间的维度来观察：

也可以从时间和气象站两个角度来观察：

维度一般是离散的值，比如时间维度上的每一个独立的日期，或者气象站维度上的每一个独立的气象站ID。因此统计时可以把维度相同的记录聚合在一起，然后应用聚合函数做累加、均值、最大值、最小值等聚合计算。

度量就是被聚合的统计值，也就是聚合运算的结果，它一般是连续的值，如以上两个图中的温度值，或是其他测量点，比如风速、湿度、降雨量等等。通过对度量的比较和分析，我们就可以对数据做出评估，比如今年平均气温是否在正常范围，某个气象站的平均气温是否明显高于往年平均气温等等。

2.4 Cube和Cuboid

确定好了维度和度量之后，然后根据定义好的维度和度量，我们就可以构建Cube。对于一个给定的数据模型，我们可以对其上的所有维度进行组合。对于N个维度来说，组合所有可能性共有2的N次方种。对于每一种维度的组合，将度量做聚合计算，然后将运算的结果保存为一个物化视图，称为Cuboid。所有维度组合的Cuboid作为一个整体，被称为Cube。

1假设有一个电商的销售数据集，其中维度包括时间（Time）、商品（Item）、地点（Location）和供应

2.商（Supplier），度量为销售额（GMV）。那么所有维度的组合就有2的4次方，即16种。

3.一维度（1D）的组合：有[Time]、[Item]、[Location]、[Supplier]4种。

4.二维度（2D）的组合：有[Time Item]、[Time Location]、[Time Supplier]、[Item Location]、[Item Supplier]、[Location Supplier]6种。

5.三维度（3D）的组合：有[Time Item Location][Item Location Supplier][Time Location Supplier][Time Item Supplier]4种。

6.最后零维度（0D）和四维度（4D）的组合各有[]和[Time Item Location Supplier]1种。计算Cubiod，即按维度来聚合销售额。如果用SQL语句来表达计算Cuboid [Time, Item]，那么SQL语句为：select Time, Item, Sum(GMV) as GMV from Sales group by Time, Item将计算的结果保存为物化视图，所有Cuboid物化视图的总称就是Cube。

2.5 事实表和维度表

事实表（Fact Table）是指存储有事实记录的表，如系统日志、销售记录、用户访问记录等。事实表的记录是动态增长的，所以它的体积通常远大于维度表。

维度表（Dimension Table）或维表，也称为查找表（Lookup Table），是与事实表相对应的一种表。它保存了维度的属性值，可以跟事实表做关联；相当于将事实表上经常重复的属性抽取、规范出来用一张表进行管理。常见的维度表有：日期表（存储与日期对应的周、月、季度等属性）、地区表（包含国家、省/州、城市等属性）等。维度表的变化通常不会太大。

使用维度表有许多好处：

①、缩小了事实表的大小。

②、便于维度的管理和维护，增加、删除和修改维度的属性，不必对事实表的大量记录进行改动。

③、维度表可以为多个事实表重用。

2.6 星形模型

维度建模通常又分为星型模型、雪花模型：

星形模型（Star Schema）是数据挖掘中常用的几种多维数据模型之一。它的特点是只有一张事实表，以及零到多个维度表，事实表与维度表通过主外键相关联，维度表之间没有关联，就像许多小星星围绕在一颗恒星周围，所以名为星形模型。

雪花模型（SnowFlake Schema），就是将星形模型中的某些维表抽取成更细粒度的维表，然后让维表之间也进行关联，这种形状酷似雪花的的模型称为雪花模型

3.运行原理

Kylin的核心思想是预计算，即对多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube，供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询，这决定了Kylin能够拥有很好的快速查询和高并发能力。

3.1 技术架构

Apache Kylin系统主要可以分为在线查询和离线构建两部分，具体架构图如下：

Kylin提供了一个称作Layer Cubing的算法，来构建Cube。简单来说，就是按照dimension数量从大到小的顺序，从Base Cuboid开始，依次基于上一层Cuboid的结果进行再聚合。每一层的计算都是一个单独的Map Reduce（Spark）任务。

MapReduce的计算结果最终保存到HBase中，HBase中每行记录的Rowkey由dimension组成，

measure会保存在column family中。为了减小存储代价，这里会对dimension和measure进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有良好的快速响应和高并发。

3.2 特性

SQL接口

Kylin主要的对外接口就是以SQL的形式提供的。SQL简单易用的特性极大地降低了Kylin的学习成本，不论是数据分析师还是Web开发程序员都能从中收益。

支持海量数据集

不论是Hive、SparkSQL，还是Impala，它们的查询时间都随着数据量的增长而线性增长。而Apache Kylin使用预计算技术打破了这一点。Kylin在数据集规模上的局限性主要取决于维度的个数和基数，而不是数据集的大小，所以Kylin能更好地支持海量数据集的查询。

亚秒级响应

受益于预计算技术，Kylin的查询速度非常快，因为复杂的连接、聚合等操作都在Cube的构建过程中已经完成了。

水平扩展

Apache Kylin同样可以使用集群部署方式进行水平扩展。但部署多个节点只能提高Kylin处理查询的能力，而不能提升它的预计算能力。

可视化集成

Kylin提供与BI工具的整合能力，如Tableau，PowerBI/Excel，MSTR，QlikSense，Hue和SuperSet。

构建多维立方体（Cube）

用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体。

4.Kylin服务器模式

Kylin 实例是无状态的，其运行时状态存储在 HBase (由 conf/kylin.properties 中的 kylin.metadata.url 指定) 中的 metadata 中。出于负载均衡的考虑，建议运行多个Kylin 实例共享一个 metadata ，因此他们在表结构中共享同一个状态，比如job 状态, Cube 状态, 等等。

每一个 Kylin 实例在 conf/kylin.properties 中都有一个 “kylin.server.mode” entry，指定了运行时的模式，有 3 个选项:

job : 在实例中运行 job engine; Kylin job engine 管理集群的 jobs。

query : 只运行 query engine; Kylin query engine 接收和回应你的 SQL 查询。

all : 在实例中既运行 job engine 也运行 query engines。

注意默认情况下只有一个实例可以运行 job engine (“all” 或 “job” 模式), 其它需要是 “query” 模式

5. 企业应用案例

Apache Kylin虽然还很年轻，但已经在多个企业的生产项目中得到了应用。下面我们来看一看Kylin在国内两个著名企业内的应用。

百度地图

大数据计算分析的三大痛点：

1.百亿级海量数据多维指标动态计算耗时问题，Apache Kylin通过预计算生成Cube结果数据集并存储到HBase的方式解决;

2.复杂条件筛选问题，用户查询时，Apache Kylin利用router查找算法及优化的HBase Coprocessor解决；

3.跨月、季度、年等大时间区间查询问题，对于预计算结果的存储，Apache Kylin利用Cube的Data Segment分区存储管理解决。

这3个痛点的解决，使百度地图在百亿级大数据规模下，且数据模型确定的具体多维分析产品中，达到单条SQL毫秒级响应。

6343 次浏览