2022-06-20 18:24 已编辑

关注

对于缓慢变化维-拉链表的实践

如果编辑有什么问题或有什么需要交流的可以留言。

公司有张用户表,全表千万量级，增量10w以内，且用户信息会进行更新
用户行为日志表关联用户表补全用户属性，由于用户信息会进行更新，因此关联时要关联当日的用户表
目前方案是每天全量抽取，分区存储全量快照即每天一个全量快照
改善方案：增量同步+(全量快照or拉链表)

- mysql数据库中用户表 其中 
    status_x 字段可能会缓慢变化
    update_time 数据插入或者更新 这个字段都会修改  即数据修改的时间 有索引，能够进行抽取
create table user_mysql(
    uid primary key ,
    status_1
    status_2
    status_n
    update_time index default currnettime or update 
);

- 数仓中增量表
create table user_inc(
    uid ,
    status_1
    status_2
    status_n
    update_time 
)partitioned by (pt);

增量抽取 每天 0:30 执行
insert overwrite table user_inc partition(pt = pt)
select 
* 
from user_mysql 
where update_time between 'pt 00:00:00' and 'pt 23:59:59' ;


- 数仓中拉链表
create table user_zip(
    uid,
    status_1
    status_2
    status_n
    update_time
    start_date '生效日期'
)partitioned by (end_date  comment '失效日期')
增加两个字段 start_date end_date
end_date=20990101表示当前生效数据

- 拉链操作 用到了user_zip 20990101分区 及 user_inc的pt分区数据
with t_zip as (
    select 
    * 
    from user_zip
    where end_date = '20990101'
),
t_inc as (
    select 
    * 
    from user_inc 
    where pt = 'pt'  
)

insert overwrite table user_zip partition(end_date) 
select
t1.`(end_date)?+.+`, -- 取t1表除end_date外其他字段
if(t2.id is null,t1.end_date,'pt') as end_date -- 只修改这个字段
from  user_zip t1 left join user_inc t2 on t1.id = t2.id
union all 
select
`(pt)?+.+`,
'pt' as start_date,  -- 所有增量抽取的start_date=pt end_date=20990101
'20990101' as end_date 
from user_inc
;


-- 在使用时，需要遍历当前日期及后面所有分区的数据 效率不高
比如看6.18的数据 要看20200618到20990101所有分区数据 然后再根据start_date进行过滤
explain
select 
*
from user_zip
where end_date > '20220618' and start_date <= '20220618'
比如看4.15的数据 要看20200415到20990101所有分区数据 然后再根据start_date进行过滤
explain
select 
*
from user_zip
where end_date > '20220415' and start_date <= '20220415'

如果修改分区键 即将end_date作为分区键 改为 partitioned by (end_date,start_date)  这样取数据会少点 但分区数又太多了


采用全量快照 每天存一个千万级别的快照 使用效率最高；
如果拉链 end_date作为分区键 20990101分区是正在生效的全量快照 其他分区基本每天10w以内数据 但使用效率不高
如果拉链 end_date,start_date作为联合分区键 具体没做 但能想到分区数会很多但取数会变少 但效率和存储都会降低很多


-- 结论
-- 1.使用增量同步+全量快照的方式 节省同步同时 用存储换计算
-- 2.后续如果数据量太大了 再改成拉链表(有每日快照的话 还是能改的)


再说一个拉链表的回退问题
比如今天告知数据出了问题 需要重跑 拉链表由于依赖上个周期的任务 需要先回退 
-- 拉链表的回退 
-- 只有 当日分区和生效分区 这两个分区数据会受到影响
-- 当日分区 ：将失效日期改成20990101
-- 20990101：将start_date = '${pt}' 的 全部删除 
insert overwrite table user_zip partition (end_date)
select
`(pt)?+.+`,
'20990101'
from user_zip 
where end_date = 'pt'
union ALL 
select 
*
from user_zip 
where end_date = '20990101' and start_date <> '${pt}';  

alter table user_zip drop partition (end_date = '${pt}');

全部评论

推荐最新楼层

不是我的益达

新媒体运营

感谢楼主的细心分享

点赞回复

发布于 2022-08-10 14:32

今天 00:01

门头沟学院计算机类

发帖纪念一下春招结束本人双非计科，成绩很烂，没有奖项，项目垃圾，因此选择走测试/测开路线。有一段互联网中厂测试实习经历，原本已经签三方了，但今年1月被毁约，被迫春招找工作投了大概有七八十家最少，待会会列出来有笔试以上环节的，泡池子就不列了最终也是选择去小鹏了，对于我这种来说小鹏愿意给offer也是很不容易了，感谢小鹏愿意收留我笔试/测评环节多益网络、友塔游戏、4399、网龙、小米、京东、cvte、海康威视、携程、字节、柠檬微趣、京东、华勤科技、名创优品、蔚来、美团、西山居、冰川网络、延趣游戏、西山居、bilibili（C++）、完美世界、funplus、华为OD、吉比特、思特威电子、网易雷火、...

投递金蝶等公司7个岗位 > 春招别灰心，我们一人来一句鼓励

点赞评论收藏

转发

不管几面都能过

04-16 16:21

已编辑

香港科技大学统计学类

求助：淘天简历评估大家都用了多久啊？

一志愿二面挂后，二志愿停留在简历评估好久了，中间还经历了换岗，hr打电话来信誓旦旦的说hc充足，但简历评估一个星期是不是就已经寄了

投递淘天集团等公司10个岗位 > 25届非技术实习投递记录 2022届毕业生现状

点赞评论收藏

转发

主动的加菲猫在划水

04-09 14:11

辽宁工业大学仪器类

收不到面试啊，是简历有大问题吗

点赞评论收藏

转发

04-08 11:03

University of Wisconsin Madison 计算机类

找不到实习就找不到吧 女朋友带小孩上课发了八百工资 转手给我转了一半

点赞评论收藏

转发

收了我我就给光头充钱

04-18 12:46

已编辑

广州大学电子信息类

腾砸，双非鼠鼠来啦！！！（月卡已充版

很神奇，一个多月的暑期流程寻找历程，起点和终点居然是一样的在牛客许愿果然超级有用，更新一下这段时间的Timeline0307投递tx安全技术，收到测评链接，开测0320小红书小程序投递，查不到任何进程，再无音讯0321接到通知，0325tx一面，结果发现岗位变成了运营开发，看着全栈的要求，陷入深深怀疑，如果会全栈了我还去搞安全干嘛，但还是开始框框准备0325一面，两个面试官，感觉一直被我愚蠢的回答逗笑，除了安全还问了很多八股和语言的问题，基本没准备八股和语言所以场面一度陷入尴尬，但是交流的过程还是很有趣的，也学习到了很多简历中没有深挖的点，0327查看已挂回到了测评步骤0326BOSS上联系的...

投递日志易等公司10个岗位 > 我的实习求职记录

点赞评论收藏

转发

2 9 评论

招聘动态

小红书

24届春招&25届实习生招聘

博乐游戏

24届春招&25届实习生招聘

24届春招硬件高薪职位集合

阅文集团2024春季校招

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

105996次浏览 2756人参与

# 你会选择考研还是直接就业 #

52744次浏览 595人参与

# 通信硬件人笔面经互助 #

35315次浏览 662人参与

# 联想求职进展汇总 #

29914次浏览 503人参与

# 如果校招重来我最想改变的是 #

64160次浏览 1321人参与

# 比亚迪求职进展汇总 #

106688次浏览 926人参与

# 23届的你们都什么时候入职？ #

68134次浏览 582人参与

# 高学历就一定能找到好工作吗？ #

5508次浏览 92人参与

# 非技术岗是怎么找实习的 #

58656次浏览 1213人参与

# 提前批和秋招有什么区别 #

22738次浏览 627人参与

# 工作两年想退休了 #

10937次浏览 105人参与

# 找不到好工作选择GAP真的丢人吗 #

6778次浏览 75人参与

# 你觉得通信/硬件有必要实习吗？ #

16654次浏览 367人参与

# 你遇到过哪些神仙同事 #

10653次浏览 181人参与

# 我的成功项目解析 #

62244次浏览 1767人参与

# 你觉得比亚迪今年还有春招吗？ #

25274次浏览 167人参与

# 小米求职进展汇总 #

25183次浏览 261人参与

# Offer比较，你最看重什么？ #

38836次浏览 402人参与

# 学历对求职的影响 #

106924次浏览 1182人参与

# 视觉/交互/设计百问百答 #

9309次浏览 270人参与

牛客网
牛客企业服务