首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客802521736号
华侨大学 大数据开发工程师
发布于北京
关注
已关注
取消关注
@蓦_然:
数据仓库面试题——介绍下数据仓库
可回答:对数据仓库的理解 问过的一些公司:京东,美团,网易,阿里(2021.09),网易有道(2021.10) 参考答案: 数据仓库的发展大致经历了这样的三个过程: 简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所 需要的汇总数据。大部分表现形式为数据库和前端报表工具。 数据集市阶段:这个阶段,主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。 数据仓库阶段:这个阶段,主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。 首先,我们先来看下数据库、数据集市、数据仓库以及数据湖的概念。 1、什么是数据库? 数据库(Database)是按照一定格式和数据结构在计算机保存数据的软件,属于物理层。 最早期是广义上的数据库,这个阶段的数据库结构主要以层次或网状的为主,这是数据库的数据和程序间具备非常强的依赖性,应用有一定局限性。 我们现在所说的数据库一般指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,具有结构化程度高,独立性强,冗余度低等优点。 关系型数据库主要用于联机事务处理OLTP(On-Line Transaction Processing),主要用于进行基本的、日常的事务处理,例如银行交易等场景。 2、什么是数据集市? 数据集市是一种微型的数据仓库,它通常是有更少的数据,更少的主题区域,以及更少的历史数据,如果数据仓库是企业级的,那数据集市就是部门级的,一般数据集市只能为某个局部范围内的管理人员服务。 3、什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH。它是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库之父比尔·恩门于1990年提出数据仓库(Data Warehouse),数仓主要是为解决企业的数据集成与分析问题。数据仓库主要功能是将OLTP经年累月所累积的大量数据,通过数据仓库特有的数据储存架构进行OLAP,最终帮助决策者能快速有效地从大量数据中,分析出有价值的信息,提供决策支持。自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。 一句话总结:数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的, 规范的数据出口。 数据仓库相比数据库,主要有以下两个特点: 数据仓库是面向主题集成的。数据仓库是为了支撑各种业务而建立的,数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来,进行加工与集成,按照主题进行重组,最终进入数据仓库。 数据仓库主要用于支撑企业决策分析,所涉及的数据操作主要是数据查询。因此数据仓库通过表结构优化、存储方式优化等方式提高查询速度、降低开销。 数据仓库与数据库的对比 维度 数据仓库 数据库 应用场景 OLAP OLTP 数据来源 多数据源 单数据源 数据标准化 非标准化Schema 高度标准化的静态Schema 数据读取优势 针对读操作进行优化 针对写操作进行优化 4、什么是数据湖? 在现在这个时代,数据对于企业而言,已经是一种重要资产。随着企业的不断发展,数据不断堆积,企业希望把生产经营中的所有相关数据都完整保存下来,进行有效管理与集中治理,挖掘和探索数据价值。而数据湖就应运而生。 数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。 数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。 数据存储架构:要有足够的扩展性和可靠性,可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。 数据处理工具,则分为两大类: 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理能力、安全的数据获取和数据发布能力。如果没有这些数据治理工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。 数据仓库和数据湖的不同类比于仓库和湖泊:仓库存储着来自特定来源的货物;而湖泊的水来自河流、溪流和其他来源,并且是原始数据。 数据湖与数据仓库的对比 维度 数据湖 数据仓库 应用场景 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 通过历史的结构化数据进行数据分析 使用成本 起步成本低,后期成本较高 起步成本高,后期成本较低 数据质量 包含大量原始数据,使用前需要清洗和标准化处理 质量高,可作为事实依据 适用对象 数据科学家、数据开发人员为主 业务分析师为主 5、数据仓库特点 1)数据仓库是面向主题的 数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。 举个例子: 比如说一个公司会有很多的部门,不同的部门都会去数据仓库拿数据,做自己要做的报表,我们把这一个部门或是某一个业务,也就是独立从我们数据仓库中获取数据的单元,把它称作为主题,也可以理解为一个主题就是一个部门。这个部门作为一个主题会从数据仓库总去获取数据,用于完成需要的报表。 2)数据仓库是集成的 数据仓库中的数据不是一开始就是在里面的,而是从各个分散的数据库中抽取出来的。但是有一个问题,就是这些来自不同数据库的数据会有重复和不一样的地方,如字段的同名异议、异名同义、单位不统一,字长不统一等。所以在集成的过程中,还要对数据进行清洗、规划、去敏等操作。 一句话就是,数据仓库是对企业内不同业务部门数据完整集合,而且还是处理过的数据。 3)数据仓库的数据是稳定的 数据仓库中的数据主要是为了给企业做决策时分析使用,涉及的主要是对数据的查询,一般情况下不会对数据进行修改,如果数据仓库中的历史数据超过存储期限,则会直接删除。 因为数据仓库涉及的操作主要是查询,所以它的系统要比数据库简单很多,但是数据仓库涉及到查询的数据量一般都很大,所以在数据查询就有更高的要求。 一句话记忆,数仓里不存在数据的更新和删除(不是指数据到期的删除)操作。 4)数据仓库中的数据是随时间变化而变化的 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最后被删除的整个生存周期中,所有的数据仓库数据都是永远不变的。 数据仓库的数据是随着时间变化而变化的主要表现如下: 数据仓库随着时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉OLTP数据库中变化的数据,追加到数据仓库当中去,也就是要不断的生成OLTP数据库的快照,经统一集成增加到数据仓库中去;但对于确实不在变化的数据库快照,如果捕捉到新的变化数据,则只生成一个新的数据库快照增加进去,而不会对原有的数据库快照进行修改。 数据库随着时间变化不断删去旧的数据内容 。数据仓库内的数据也有存储期限,一旦过了这一期限,过期数据就要被删除。 数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。这些数据要随着时间的变化不断地进行从新综合。因此数据仓库的数据特征都包含时间项,以标明数据的历史时期。 一句话理解,数仓里会完整的记录某个对象在一段时期内的变化情况。
点赞 17
评论 1
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
10-17 16:05
大连海事大学 测试工程师
海尔智造技术工程师电话面
第一次收到电话面试,我不太清楚这个是面试还是说确认流程,全程15分钟1,询问我的课题和项目基本情况?2,总部在青岛,能否接受在青岛工作?3,了解我更偏向研发之后,建议说可以投研发那边的岗位,然后介绍智造技术工程师需要进行的业务,说这个岗位就是进厂里面,然后偏制造类的,像机械啊,然后工艺工程这种,然后需要用CAD进行画图啥的,研发的部分占比非常小4,我看你的期望城市投的是武汉,我们这边会同步把你的简历推给武汉那边的部门,然后后续合适的话,会有视频面试面试官很温柔,感觉有真的被考虑到我的核心需求(但是我一志愿投的就是海尔软件测试呀,给我简历挂了(´-﹏-`;))
查看2道真题和解析
点赞
评论
收藏
分享
10-13 22:56
门头沟学院 C++
签浪潮还是等小米
rt,鼠鼠的浪潮网签明天过期,鼠鼠是山东人,好像自己也能接受。之前的面试大厂基本挂干净了,剩下小米二面后在泡,问了下面试官没有挂,但要泡。还有海信似乎也通过了,不过在深圳,鼠鼠也不是很想去。其它还有一些公司应该陆陆续续还有一些面试,现在有些纠结是直接签了还是再等再面呢?大佬们能不能给鼠鼠提一些意见,万分感谢!!!
牛客78696106...:
浪潮可不是开摆,当初我还是开发的时候我组长跟我说他们组有段时间天天1,2点走,早上5点就来,全组肝出来心肌炎,浪潮挣钱省立花可不是说说,当然也看部门,但是浪潮普遍就那dio样,而且你算下时薪就知道不高,没事也是9点半走,不然算你旷工
投递小米集团等公司10个岗位
点赞
评论
收藏
分享
不愿透露姓名的神秘牛友
09-23 18:40
永远诋毁丑团
简历挂无非说一句学历厂发笔试给我算法题ak了一周后又给我挂了是什么意思?真就浪费时间恶心人
牛客29862088...:
美团是海笔,笔试成绩不重要。 主要是没部门捞你
笔试
点赞
评论
收藏
分享
09-26 22:40
重庆邮电大学 Java
不是哥们,露头就秒了?
不是刚投,投完就挂了。
酷酷的喜马拉雅山:
感觉这比一直在初筛不动的好多了
点赞
评论
收藏
分享
10-18 18:31
已编辑
西北工业大学 Java
作业帮一面
2025年10月18日 作业帮一面全程75分钟。实习你在该项目中的职责是独立开发还是合作?项目背景是什么?为什么要做这个工具?阿里内部没有类似工具吗?开发前有调研开源方案吗?技术方案是如何确定的?是和 Leader 一起定的吗?八股这部分基本是按项目的点来问的八股。更新数据库 + 删除缓存策略下,如果删除缓存失败怎么办?如何保证操作的原子性?是否需要加报警机制?多个请求同时更新,会不会因执行顺序导致数据不一致?为什么“先更新 DB 再删缓存”能避免该问题?缓存穿透是什么?如何解决?布隆过滤器的误报是否有影响?雪花算法的结构是怎样的?雪花算法的实现是自己写的还是用现成的?雪花算法有什么问题?(时...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
族望留原籍,家贫走四方
9202
2
...
被秋招面试感动了
2007
3
...
实习越多越好还是越精越好?
1654
4
...
大厂这么卷,去国企,外企“上岸”?
1445
5
...
想问一下27届明年暑期实习大概什么时候开
1403
6
...
记录秋招 Offer 选择(从纠结到坚定)
1312
7
...
秋招总结,offer帮选
955
8
...
开源活动
873
9
...
【招银云创】秋招首offer
809
10
...
球球大家,给菜菜小弟一点建议
701
创作者周榜
更多
正在热议
更多
#
大厂VS公务员你怎么选
#
37096次浏览
480人参与
#
腾讯工作体验
#
515403次浏览
3551人参与
#
未岚大陆求职进展汇总
#
9667次浏览
92人参与
#
发面经攒人品
#
2639309次浏览
35973人参与
#
你现在会用到哪些AI技能?
#
11167次浏览
100人参与
#
我的求职进度条
#
109267次浏览
1351人参与
#
智慧芽求职进展汇总
#
2589次浏览
5人参与
#
我对___祛魅了
#
133406次浏览
740人参与
#
多益网络工作体验
#
55764次浏览
292人参与
#
你还有多少年退休?
#
27551次浏览
192人参与
#
来聊聊机械薪资天花板是哪家
#
145575次浏览
801人参与
#
工作中的卑微时刻
#
25677次浏览
175人参与
#
你有哪些缓解焦虑的方法?
#
35791次浏览
828人参与
#
小马智行求职进展汇总
#
14298次浏览
50人参与
#
机械人与华为的爱恨情仇
#
133253次浏览
1008人参与
#
实习在多还是在精
#
38297次浏览
267人参与
#
你觉得材料多少算高薪
#
26865次浏览
159人参与
#
顺丰求职进展汇总
#
64267次浏览
316人参与
#
你的房租占工资的比例是多少?
#
66155次浏览
803人参与
#
秋招踩过的“雷”,希望你别再踩
#
91054次浏览
1127人参与
#
实习下班不想学习,正常吗?
#
23614次浏览
189人参与
#
反问环节如何提问
#
116363次浏览
2477人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务