摸鱼等退休

2023-03-30 12:31 门头沟学院项目经理

关注

面试官：了解拉链表吗？描述一下

拉链表是数据仓库中一种重要的模型，相信很多数据工作者都接触过，面试也是经常考察的点。

但是很多人第一次接触“拉链表”这个词，难免会产生疑惑：拉链表是什么？

什么是拉链表

按照度娘的解释：“拉链表是一种针对数据仓库设计中表存储数据的方式而定义的数据模型，它有点类似于快照，用于维护历史状态及最新状态数据。”

这么看还是有点难理解，既然如此，那我们先不管，先来看以下场景：

假如有张表如表1-1所示，每天的数据量大概有50w
表中有些字段会被 update，如表1-2，且每天更新的数据量很小，大约只有5k
有些报表需要查看历史某个日期的数据
存储空间有限，需要尽可能的节约存储空间

问：你会怎么将其装入数仓中？

表1-1：

1	Agnes	123
2	Max	456
3	Tony	789
...	...	...

表1-2：

1	Agnes	123
2	Max	456
3	Tony	321
...	...	...

每天追加一份全量数据

这种方式比较简单粗暴，如表1-3，不仅操作方便，还可以反映历史变化。但是弊端也很明显：存在数据冗余、浪费存储空间。

每天50w，一个月就有1500w了，时间越长，数据量越多，然而实际变化的数据每天只有5k，剩下的数据几乎都是重复存储的，极大浪费存储空间。

表1-3

1	Agnes	123
2	Max	456
3	Tony	789
1	Agnes	123
2	Max	456
3	Tony	321
...	...	...

直接覆盖原来的数据

这种方式也很简单，直接全表 truncate 再 insert，虽然空间节省了，但缺点也很明显，会把历史数据覆盖掉，没办法反映历史数据的变化。

使用拉链表

在原表结构的基础上，加两个字段：start_date 和 end_date，第一次抽取数据的时候，将 start_date 初始化为抽取日期，end_date 初始化为永久日期，如表1-4所示

表1-4：

1	Agnes	123	20230328	99999999
2	Max	456	20230328	99999999
3	Tony	789	20230328	99999999
...	...	...	...	...

之后的每一次抽取，则需要对比当日数据以及历史数据，将有变化的历史数据的 end_date 改成当日抽取日期；

将新抽取的有变化的数据按照初始化的方式设置 start_date 和 end_date。如表1-5所示

表1-5：

1	Agnes	123	20230328	99999999
2	Max	456	20230328	99999999
3	Tony	789	20230328	20230329
3	Tony	321	20230329	99999999
...	...	...	...	...

这种数据模型就是拉链表，它既能反映历史变化，又能节省空间，岂不美哉？

如何实现拉链表

既然理解了什么是拉链表，那么应该如何实现呢？

方式一

（1）获取当日数据；

（2）比较当日数据及历史数据，找出新增和变化的数据，存到临时表，并将开始日期置为当前日期，结束日期置为最大日期；

（3）将历史数据表中的变化数据的结束日期更新为当前日期，即闭链；

（4）将临时表的新增和变化数据插入历史数据表中，即开链。

方式二

（1）获取当日数据；

（2）比较当日数据和昨日数据，找出新增数据和变化后数据；

（3）比较昨日数据和当日数据，找出删除数据和变化前数据；

（4）删除历史数据表中的删除数据和变化前数据；

（5）将新增数据和变化后数据插入历史数据表中，把开始日期置为当前日期，结束日期置为最大日期；

（6）将删除数据和变化前数据插入历史数据表中，把结束日期置为当前日期。

方式一比较简洁；在数据量比较大的情况下，方式二效率比较高，因为用删除插入的操作替代更新的操作，当然，这是对于传统数据库而言，具体的方式应根据实际数据量和数据库来制定。

小结

本文用一个案例简单介绍了拉链表的含义以及实现拉链表的方式，如果有什么错误，欢迎大家指正；如果对大家有帮助，希望大家能给个赞给予肯定支持，谢谢。

持续关注不迷路，转载请注明出处：大数据的奇妙冒险

#数据人的面试交流地##数据仓库与数据分析实习#

大数据从入门到放弃文章被收录于专栏

写点大数据相关的内容，一起交流进步

全部评论

推荐最新楼层

🐭🐭奥德彪

门头沟学院大数据开发工程师

终于看明年拉链表了

点赞回复分享

发布于 2023-09-25 20:08 北京

逢欢北顾

重庆邮电大学 Java

涨知识了，之前没听过拉链表

点赞回复分享

发布于 2023-03-30 22:03 重庆

02-12 10:59

北京体育大学测试工程师

langgraph基础概念

#聊聊Agent开发#1. 状态（State）代表应用程序当前快照的共享数据结构可以使用 TypedDict 或 Pydantic 模型定义包含作为所有节点和边输入模式的模式（schema）通过减速器函数（reducer functions）进行更新，指定如何应用更改1. TypedDict 和 Pydantic 是什么？它们都是定义状态结构的方式：、简单说：都是用来定义你的数据结构，就像数据库的字段定义。 #pydantic方式 from pydantic import BaseModel class State(BaseModel): messages: list llm_calls: i...

点赞评论收藏

02-13 11:21

联想（北京）有限公司_后端开发部_JAVA开发工程师(准入职员工)

康冠科技内推，康冠科技内推码

康冠科技硬件工程师面经8.7  一面终面    只有一次面试决定是否通过1.为什么选择珠三角这个地方来工作（改开前列，经济发达地区有更多机会，也有更多的资源）2.珠三角和长三角在同等条件下，会选择哪个区域，为什么3.平时有什么兴趣爱好4.个人有什么缺点（决策不够决断，指定目标的时候有些太远，可实施性不高）5.从哪里了解到的康冠6.对STM32单片机了解的多吗，32的GPIO口在我们使用的时候，需要进行哪些初始化动作（引脚复用的上下拉电阻，代码也需要确定使用输入输出；单功能接口不需要设置）7.STM32单片机的输入输出IO口最高工作速度，大概是多少兆8.项目中使用的传感器与单片机是怎么通信的，用...

点赞评论收藏

01-29 13:07

门头沟学院前端工程师

wxg，你到底想干什么？

刚刚接到一个自称是腾讯广州微信事业群的面试官的电话，声音很低沉。问我是否还有意向找实习，我一听是腾讯，必须得有意向啊，就算是KPI面也值得了。但是！我刚回复一句:"有意向啊，肯定有啊"。面试官:"不好意思，算了"???? 到底要干啥?

Rain_Codin...：应该是问你现在有没有其他公司的意向书哈哈哈哈

腾讯求职进展汇总

点赞评论收藏

01-11 16:10

山东科技大学前端工程师

27前端找实习简历

各位大佬帮看看简历哪里需要改进，孩子想一月份找个实习

点赞评论收藏

02-13 14:22

曼迪匹艾_人力资源部_HRBP(准入职员工)

MDPI内推，MDPI内推码

工作内容 • 作为助理编辑（AE)，负责全英论文发表全流程，包括找审稿人、收发邮件等，每天都会给我派一篇稿件，目前手里已经有十几篇了（以后会一直累积吗？）  加班 • 这个单位主打一个多劳多得，可以身兼数职，所以许多人加班都是为了拿更多更多的💰 • 加班晚上七点后可点一份免费工作餐，但我作为实习生不用加班（8:30-17:30），每天到点就撤，所以还没吃过 实习生转正KPI要求 • 入职3个月发文15篇，6个月发文60篇。 • 转正后每季度30篇，超过部分每篇奖励300元。  福利待遇 五险一金，生日福利、节假日福利（入职每增加一年年假多一天）、年终奖等。另外每天下午3点至3点20为下午茶时...

曼迪匹艾公司福利 149人发布

点赞评论收藏

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

创作者周榜

正在热议

# 毕业季，你想好怎么跟生活对线了吗？ #