首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
就等捡漏了
门头沟学院 Java
发布于湖北
关注
已关注
取消关注
@已删除:
万字详解数据仓库、数据湖、数据中台和湖仓一体
本文目录:一、前言二、概念解析数据仓库数据湖数据中台三、具体区别数据仓库 VS 数据湖数据仓库 VS 数据中台总结四、湖仓一体目前数据存储方案Data Lakehouse(湖仓一体)一、前言数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”…….50000字详解数仓建设保姆级教程,涵盖离线和实时.企业还没推开数字化大门,先被各种概念绊了一脚。那么它们 3 者究竟有啥区别?别急,先跟大家分享两个有趣的比喻。1、图书馆VS地摊如果把数据仓库比喻成“图书馆”,那么数据湖就是“地摊”。去图书馆借书(数据),书籍质量有保障,但你得等,等什么?等管理员先查到这本书属于哪个类目、在哪个架子上,你才能精准拿到自己想要的书;而地摊上没有人会给你把关,什么书都有,你自己翻找、随用随取,流程上比图书馆便捷多了,但大家找书的过程是没有经验可复用的,偶尔多拿少拿咱们可能也不知道。2、升级版银行假定数据仓库、数据湖、数据中台都是银行,可以提供现金、黄金等多种服务。过去大家进银行前都得先问门卫,里面每个门牌上的数字对应哪个服务呢?是现金还是黄金呢?然后推开对应的门把东西取出来。而有了“数据中台”这个银行,大家一进来就能看到标着“现金”、“黄金”汉字的窗口,一目了然,你只需要走到窗口前,就有专人帮你办理。以上两个例子不一定全面,但基本能解释三者的优劣势。数据仓库具备规范性,但取数用数流程长;数据湖取数用数更实时、存储量大,但数据质量难以保障;数据中台能精准快速地响应业务需求,离业务侧最近。为了更清晰地区别三者,接下来咱们再来看看它们各自的定义以及应用区别。二、概念解析1. 数据仓库数据仓库诞生于 1990 年,绝对算得上是“老前辈”了,它是一个相对具体的功能概念。目前对数据仓库的主流定义是位于多个数据库上的大容量存储库,它的作用在于存储大量的结构化数据,并能进行频繁和可重复的分析,帮助企业构建商业智能(BI)。具体定义:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,分析出有价值的资讯。所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库的作用:数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。是面向企业中、高级管理进行业务分析和绩效考核的数据整合、分析和展现的工具;是主要用于历史性、综合性和深层次数据分析;数据来源是ERP(例:SAP)系统或其他业务系统;能够提供灵活、直观、简洁和易于操作的多维查询分析;不是日常交易操作系统,不能直接产生交易数据;实时数仓实时数仓和离线数仓非常的像,诞生的背景主要是近几年企业对于数据服务的实时性需求日益增多。里面的数据模型也会像中台一样分好几层:ODS 、CDM、ADS。但整体对于实时性要求极高,因此一般存储会考虑采用Kafka这种log base的MQ,而计算引擎会采用Flink这种流计算引擎。2. 数据湖数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。数据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。进入互联网时代,有两个最重要的变化。一个是数据规模前所未有,一个成功的互联网产品日活可以过亿,就像你熟知的头条、抖音、快手、网易云音乐,每天产生几千亿的用户行为。传统数据仓库难于扩展,根本无法承载如此规模的海量数据。另一个是数据类型变得异构化,互联网时代的数据除了来自业务数据库的结构化数据,还有来自 App、Web 的前端埋点数据,或者业务服务器的后端埋点日志,这些数据一般都是半结构化,甚至无结构的。传统数据仓库对数据模型有严格的要求,在数据导入到数据仓库前,数据模型就必须事先定义好,数据必须按照模型设计存储。所以,数据规模和数据类型的限制,导致传统数据仓库无法支撑互联网时代的商业智能。05年的时候,Hadoop诞生了。 Hadoop 相比传统数据仓库主要有两个优势:完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;弱化数据格式,数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离,数据(包含了原始数据)在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求。而数仓更加关注可以作为事实依据的数据。随着Hadoop与对象存储的成熟,数据湖的概念在10年被提出:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统(这意味着数据湖的底层不应该与任何存储耦合)。对应的来说,如果数据湖没有被治理好(缺乏元数据、定义数据源、制定数据访问策略和安全策略,并移动数据、编制数据目录),则会变成数据沼泽。而从产品形态上来说,数仓往往是独立标准化的产品。而数据湖更像是一种架构指导——需要配合一系列的周边工具,来实现业务需要的数据湖。3. 数据中台大规模数据的应用,也逐渐暴露出现一些问题。业务发展前期,为了快速实现业务的需求,烟囱式的开发导致企业不同业务线,甚至相同业务线的不同应用之间,数据都是割裂的。两个数据应用的相同指标,展示的结果不一致,导致运营对数据的信任度下降。如果你是运营,当你想看一下商品的销售额,发现两个报表上,都叫销售额的指标出现了两个值,你的感受如何? 你第一反应肯定是数据算错了,你不敢继续使用这个数据了。数据割裂的另外一个问题,就是大量的重复计算、开发,导致的研发效率的浪费,计算、存储资源的浪费,大数据的应用成本越来越高。如果你是运营,当你想要一个数据的时候,开发告诉你至少需要一周,你肯定想是不是太慢了,能不能再快一点儿?如果你是数据开发,当面对大量的需求的时候,你肯定是在抱怨,需求太多,人太少,活干不完。如果你是一个企业的老板,当你看到每个月的账单成指数级增长的时候,你肯定觉得这也太贵了,能不能再省一点,要不吃不消了。这些问题的根源在于,数据无法共享。2016 年,阿里巴巴率先提出了“数据中台”的口号。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用。之前,数据是要啥没啥,中间数据难于共享,无法积累。现在建设数据中台之后,要啥有啥,数据应用的研发速度不再受限于数据开发的速度,一夜之间,我们就可以根据场景,孵化出很多数据应用,这些应用让数据产生价值。数据中台样板在建设中台的过程中,一般强调这样几个重点:效率、质量和成本是决定数据能否支撑好业务的关键,构建数据中台的目标就是要实现高效率、高质量、低成本。数据只加工一次是建设数据中台的核心,本质上是要实现公共计算逻辑的下沉和复用。如果你的企业拥有 3 个以上的数据应用场景,数据产品还在不断研发和更新,你必须要认真考虑建设数据中台。那么接下来就看一下阿里巴巴对于数据中台的实践。正如上述提到的数据只加工一次是建设数据中台的核心,本质上是要实现公共计算逻辑的下沉和复用。阿里数据中台提到了各种one思想,如:OneData:公共数据只保存一份OneService:通过一个服务接口进行暴露三、具体区别1. 数据仓库 VS 数据湖相较而言,数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。2. 数据仓库 VS 数据中台数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。3. 总结根据以上数据仓库、数据湖和数据中台的概念论述和对比,我们进行如下总结:数据中台、数据仓库和数据湖没有直接的关系;数据中台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。四、湖仓一体有人说“湖仓一体成为下一站灯塔,数仓、数据湖架构即将退出群聊”。2020年,大数据DataBricks公司首次提出了湖仓一体(Data Lakehouse)概念,希望将数据湖和数据仓库技术合而为一,此概念一出各路云厂商纷纷跟进。Data Lakehouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。1. 目前数据存储的方案一直以来,我们都在使用两种数据存储方式来架构数据:数据仓库:主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。数据湖:存储任何类型的数据,包括像图片、文档这样的非结构化数据。数据湖通常更大,其存储成本也更为廉价。存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上。相反的是,数据的拥有者通常会在读取数据的时候解析schema(schema-on-read),当处理相应的数据时,将转换施加其上。现在许多的公司往往同时会搭建数仓、数据湖这两种存储架构,一个大的数仓和多个小的数据湖。这样,数据在这两种存储中就会有一定的冗余。2. Data Lakehouse(湖仓一体)Data Lakehouse的出现试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时lakehouse能够有效地提升数据质量,减小数据冗余。在lakehouse的构建中,ETL起了非常重要的作用,它能够将未经规整的数据湖层数据转换成数仓层结构化的数据。下面详细解释下:湖仓一体(Data Lakehouse):依据DataBricks公司对Lakehouse 的定义:一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。Lakehouse 使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。解释拓展:湖仓一体,简单理解就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。湖仓一体方案的出现,帮助企业构建起全新的、融合的数据平台。通过对机器学习和AI算法的支持,实现数据湖+数据仓库的闭环,提升业务的效率。数据湖和数据仓库的能力充分结合,形成互补,同时对接上层多样化的计算生态。Lakehouse有如下关键特性:事物支持:Lakehouse 在企业级应用中,许多数据管道通常会同时读取和写入数据。通常多方同时使用 SQL 读取或写入数据,Lakehouse 保证支持ACID事务的一致性。模式实施和治理:Lakehouse 应该有一种支持模式实施和演变的方法,支持 DW 模式规范,例如 star /snowflake-schemas。该系统应该能够推理数据完整性,并且应该具有健壮的治理和审核机制。BI支持:Lakehouse 可以直接在源数据上使用BI工具。这样可以减少陈旧度和等待时间,提高新近度,并且降低必须在数据湖和仓库中操作两个数据副本的成本。存储与计算分离:事实上,这意味着存储和计算使用单独的群集,因此这些系统能够扩展到更多并发用户和更大数据量。一些现代数据仓库也具有这种属性。兼容性:Lakehouse 使用的存储格式是开放式和标准化的,例如 Parquet,并且它提供了多种 API,包括机器学习和 Python/R 库,因此各种工具和引擎都可以直接有效地访问数据。支持从非结构化数据到结构化数据的多种数据类型:Lakehouse 可用于存储,优化,分析和访问许多新数据应用程序所需的数据类型,包括图像,视频,音频,半结构化数据和文本。支持各种工作场景:包括数据科学,机器学习和 SQL 分析。这些可能依赖于多种工具来支持的工作场景,它们都依赖于相同的数据存储库。端到端流式任务:实时报告是许多企业的日常需要。对流处理的支持消除了对专***于实时数据应用程序的单独系统的需求。上面这张图是DataBricks给出的架构演化参考图。我们可以看到,传统的数仓目标非常明确,适用于将各业务数据源合并后,进行商务BI分析和报表。随着企业需要处理的数据类型越来越多,包括客户行为,IoT,图片,视频等, 数据规模也成指数增加。数据湖技术被引入,并用于承担通用数据存储和处理平台的作用,数据湖由于其分布式存储和计算能力的特点,也可以更好的支持机器学习计算, 在数据湖时代,我们通常可以看到DataLake和Data Warehouse还是会同时存在的。随着大数据时代的到来,是不是有可能让大数据技术可以取代传统数仓,形成一个统一的数据处理架构,湖仓一体的概念被提出,并由DataBricks和云厂商们在进行快速的推演和实践。参考最强最全面的数仓建设规范指南美团数据平台及数仓建设实践,超十万字总结数仓建设保姆级教程
点赞 0
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
07-20 23:36
阿里巴巴_阿里国际_后端开发(实习员工)
快进到实习转正答辩结束吧
不知从何时起,脸上越来越难以露出笑容了。内耗像一场无声的拉锯战——焦虑未来、失眠、短暂释然后又陷入新的循环。4月底为暑期实习失眠,拿到offer的快乐转瞬即逝。5月以来实习的这两个月,其实环境、待遇、遇见的师兄和其他实习生都挺好的。直到现在快7月底了,一些提前批甚至秋招正式批都已经开始了,而我平时的实习就已经忙手忙脚了,自己做的任务都说不清楚,也是得过且过,八股这两个月就没背过,题也没怎么刷了,真的要准备秋招了,压力感扑面而来。工作日过得总是很慢,周末却如快进般消失。每次到了周日的晚上,又是一个难眠的夜晚。焦虑不仅是因为明天又要上班了,更是因为未来还要上几十年的班。游戏、短视频填不满空虚,连爱...
点赞
评论
收藏
分享
07-21 16:51
门头沟学院 客户端其它
实习打杂,要跑路吗
说到实习打杂,先来看一下实习打杂的判断标准。判断实习是否是打杂的标准:是否为业务相关内容是否能给你带来技能上的提升是否可以成为你简历上的闪光点 有的同学会有疑问,我的工作倒也不全是打杂,但是就是重复性工作,整天CURD,感觉没什么提升空间。这也不能完全怪你们,我们都是经历了9年义务教务出来的人,这9年里面,甚至高中3年,我们都是在别人规划好的计划中按部就班的学习,上了大学之后,自己根本没有主动学习的意识,等着别人规划自己的路,这是不对的。你实习中想要获得的收获,不仅要从导师安排的计划中获取,最重要的还是取决于你怎么做。做好手里面的活。干活你就要有个干活的态度,你可以慢,但是你要做的好,工作交给...
码农索隆:
大家最近怎么样啊,实习的、秋招的
实习打杂,要跑路吗
点赞
评论
收藏
分享
06-27 18:09
已编辑
门头沟学院 Java
26届拼尽全力,0面试,感谢信大丰收
乐色三本已经不想投了,还有我寻思着我这乐色八股面试题笔试题都还没刷几道就先框框投了几个月,就算投中了也会挂面试的吧喂——话说让我了一年、3个月、1个月池子等等等等的公司能不能把我打回了让我重新投——我是真的很想重投啊啊啊啊还有点评能用什么项目换啊,友友们有什么推荐的项目吗,我有空时候找了下,没找到我能做的,最后把课设加上去了(目移)算了先让我复习几天期末缓缓(8天考3科我还没复习啊啊啊)
点赞
评论
收藏
分享
07-03 17:09
已编辑
武汉工程大学邮电与信息工程学院 Java
现在Java开发这么难吗面试都没几个
26届找实习根本找不到啊,我的简历很差吗,也不至于一个没有吧
Lorn的意义:
1.你这根本就不会写简历呀,了解太少了 2.你这些项目经历感觉真的没啥亮点啊,描述的不行,重写书写一下让人看到核心,就继续海投 注意七八月份ofer还是比较多的,越往后机会越少,抓住时机,抓紧检查疏漏,加油
查看图片
点赞
评论
收藏
分享
07-22 18:37
门头沟学院 Java
百度提前批许愿oc
时间线 7.9投递 7.10测评 7.12电话约一面 7.14一面纯八股拷打,一道手撕,时长一小时,隔一天电话约二面 7.17二面 项目拷打,四道手撕,一个代码,三个说思路,时长一个半小时,第二天直接发邮件二面。 7.21三面 主管面,聊经历,四十分钟
百度主管面10人在聊
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
实习包装不是吹牛皮,要怎么包装看这里
5.5W
2
...
百度一二面凉经
4404
3
...
河南萌新联赛2025第(二)场:河南农业大学_题解
4061
4
...
百度提前批后端一面 —— 亚历山大,特批拿下
3519
5
...
再再再再强调一遍!秋招不要装逼
3152
6
...
字节实习第三天10点下班,哭了
2639
7
...
百度一面面经7.14
2584
8
...
26届米哈游秋招提前批面经(游戏客户端)已挂
2284
9
...
滴滴提前批
2101
10
...
入我滴滴!早十晚六 !
2093
创作者周榜
更多
正在热议
更多
#
哪些公司开提前批了?
#
19205次浏览
217人参与
#
除了主业以外,你还有哪些其他收入?
#
9552次浏览
169人参与
#
校招阶段,学历VS技术哪个更重要?
#
14844次浏览
166人参与
#
实习如何「偷」产出?
#
41490次浏览
977人参与
#
不卡学历的大厂有哪些?
#
22979次浏览
174人参与
#
职场新人体验
#
19783次浏览
184人参与
#
实习打杂,要跑路吗
#
16198次浏览
192人参与
#
风评不好的公司,你会去吗?
#
49565次浏览
368人参与
#
硬件人求职现状
#
433962次浏览
4539人参与
#
校园里的破防时刻
#
9257次浏览
104人参与
#
社恐入职新公司如何融入团队
#
11482次浏览
62人参与
#
腾讯音乐求职进展汇总
#
97674次浏览
566人参与
#
歌尔求职进展汇总
#
58146次浏览
339人参与
#
Offer比较,你最看重什么?
#
191155次浏览
1299人参与
#
正在实习的碎碎念
#
1453512次浏览
13466人参与
#
实习时,大家都怎么称呼自己的mentor?
#
43549次浏览
273人参与
#
你投递的公司有几家约面了?
#
108267次浏览
775人参与
#
摸鱼被leader发现了怎么办
#
61091次浏览
371人参与
#
软开人,秋招你打算投哪些公司呢
#
107963次浏览
978人参与
#
考研可以缓解求职焦虑吗
#
53748次浏览
474人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务