三石大数据

2025-05-25 09:54 门头沟学院大数据开发工程师发布于北京

关注

row_number数据倾斜的最佳解决方案

需求背景

来自京东外卖-数据研发二面

已知一张京东外卖骑手收入表 dws_jd_emp_salary_1d，存放各地区各骑手当日的外卖收入情况，计算各地区骑手当日收入前三的名单

BJ	001	300
BJ	002	100
BJ	003	200
BJ	004	150
BJ	005	120
BJ	006	500
BJ	007	380
BJ	008	300
SH	009	600
SH	010	360

SQL代码如下：

select 
  area_id,
  emp_id,
  salary
from 
(  
  select 
    area_id,
    emp_id,
    salary,
    row_number() over(partition by area_id order by salary desc) rk
  from dws_jd_emp_salary_1d
  where dt = '20250523'
) t
where rk <= 3

面试官继续问：真实场景中，这个代码运行的非常慢，如何优化？

问题分析

回答：如果真实场景运行的非常慢，那么我认为可能是由两种原因导致的

第一、员工收入表数据量非常大
第二、ROW_NUMBER按照area_id分组时发生了数据倾斜

综合来看，第一种原因的可能性并不是很大，外卖业务是一个新业务，同时数据源是一张天级别汇总表，数据量不会太大，那么我接下来主要说一下第二种情况如何解决

解决方案

-- 1、将同一个区域的员工分散到10个桶中分别进行排序，并且获取对应的前三名
with t1 as (
  select 
    area_id,
    emp_id,
    salary
  from 
  (  
    select 
      area_id,
      emp_id,
      salary,
      row_number() over(partition by area_id, round(rand()*10）order by salary desc) rk
    from dws_jd_emp_salary_1d
    where dt = '20250523'
  ) t
  where rk <= 3
)
-- 2、对同一个区域的员工再次进行排序，然后获取前三名即为所求
select 
  area_id,
  emp_id,
  salary
from 
(  
  select 
    area_id,
    emp_id,
    salary,
    row_number() over(partition by area_id order by salary desc) rk
  from t1
) t
where rk <= 3

思考：为什么这样就可以提升代码运行效率？

#数据人的面试交流地##京东美团大战，你怎么看？#

大数据开发面试笔记文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章：大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块；计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块；计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块；算法刷题篇包括大厂高频算法题、刷题速成计划等模块面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

推荐最新楼层

我是超人强越超人越强_

广东第二师范学院运营

点赞回复分享

发布于 2025-06-02 00:51 广东

03-14 09:57

吉林农业大学算法工程师

度小满大模型开发一面

1、知道 GPT 和 BERT 这种模型的基础框架是怎样的吗BERT 和 GPT 都是基于 Transformer 的预训练模型，但结构和任务目标不一样。BERT 一般采用 Transformer Encoder 堆叠起来的双向编码结构，在预训练时主要做 MLM，也就是随机遮盖一部分 token，让模型根据上下文去恢复被遮掉的词，因此它更适合理解类任务，比如分类、匹配、抽取、检索表示学习。GPT 采用 Transformer Decoder 堆叠起来的单向自回归结构，在预训练时做 next token prediction，也就是根据前面的 token 预测下一个 token，因此它更适合生成...

AI-Agent面试实战...

点赞评论收藏

分享

03-15 18:50

拼多多集团-PDD_服务端研发工程师(准入职员工)

凌晨两点，那条告警消失了

"线上CPU使用率突破85%，请立即处理。" 手机震动的那一刻，我从床上弹了起来。 这是我负责的模块上线后的第三天，也是我第一次在凌晨收到生产环境的告警。 我打开电脑，手指在键盘上有点抖。 监控大盘上，那条红色的曲线像心电图一样跳动着。 我深吸一口气，开始排查： 先看日志——发现某个接口的调用量突然暴增。 再看链路追踪——发现是一个查询语句在循环执行。 最后定位到代码——我上周优化的那个缓存逻辑，在某个边界条件下失效了。 "找到了。"我在群里发了条消息，然后开始写hotfix。 十分钟后，代码提交。 二十分钟后，灰度验证通过。 三十分钟后，全量发布。 凌...

点赞评论收藏

分享

03-17 13:56

湖南大学 Java

27届找暑期，简历求拷打

本2硕9，力扣是没刷完的，八股是没背完的，准备先投中小厂练练手，逼自己先面试找找感觉。大厂到底什么时候才配投啊，看了面经能掰扯的最多才一半

今天你投了哪些公司？

点赞评论收藏

分享

03-14 10:16

天猫技术_服务端开发

似乎今年大厂开始的比较晚

字节 腾讯三月初就开始了，阿里3.18才开启，但是已经开始造势了，阿里巴巴开始的这么晚，难道是刚盘点完hc？据说今年招聘大方向也是AI，同学们加把劲吧

肖先生~：感觉现在AI充斥着互联网

你感受到金三银四了嘛？

点赞评论收藏

分享

03-16 10:37

门头沟学院 Java

Shopee 秋招一面面经 55min

先做下自我介绍。看你的专业是非科班的，这两个专业是做什么的？你是自己对计算机感兴趣吗？那你们有什么计算机相关的课程吗？操作系统、计算机网络这一块了解吗？能给我介绍一下虚拟内存吗？除此之外呢，还有其他作用吗？什么是携程？携程跟进程、线程这种东西，它有什么区别啊？了解零拷贝技术吗？计算机网络你是自己去看那本书是吧，还是学什么课程啊？能介绍一下TCP是怎么保证可靠性的吗？有了解过HTTP/2 或 HTTP/3吗，区别是什么？算法跟数据结构这块，你是也是自学是吗？还是有课程呢？可以介绍一下跳表这种数据结构吗？Redis集群了解吗？MySQL锁机制能给我介绍一下吗？场景题：如果你只有2G内存可以用的话，...

查看28道真题和解析

点赞评论收藏

分享

评论

3

2

招聘动态

搜狐畅游

26届春招火热进行中

莉莉丝

2026春季校园招聘

招商银行·招银网络科技

2026届校园招聘

麦吉太文

2026校园招聘

神州信息

2026届校园招聘

广发证券Fintech

2026校园招聘

小米集团

2026届春季校园招聘

翼支付

2026届春季校园招聘

厦门银行

2026届春季校园招聘

联想

26届补录&27届暑期实习

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 跟HR说什么能被秒回？ #

10390次浏览 183人参与

# 职能管理面试记录 #

9315次浏览 44人参与

# 巨人网络春招 #

10282次浏览 164人参与

# 春招/暑实第一面是哪家？ #

21447次浏览 240人参与

# OPPO求职进展汇总 #

790266次浏览 5420人参与

# 你收到了哪些公司的笔试？ #

19565次浏览 111人参与

# MiniMax求职进展汇总 #

16145次浏览 241人参与

# 正在春招的你，也参与了去年秋招吗？ #

359393次浏览 2612人参与

# 一人说一个提前实习的好处 #

115281次浏览 704人参与

# 京东美团大战，你怎么看？ #

174400次浏览 883人参与

# 京东开奖 #

673698次浏览 3238人参与

# 如何一边实习一边找下家？ #

33957次浏览 247人参与

# 面试官最爱问的 AI 问题是...... #

17911次浏览 610人参与

# 你的嫡系AI是哪个？ #

4777次浏览 119人参与

# 现在入门AI应该走哪些方向？ #

4835次浏览 101人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

3334次浏览 95人参与

# 想给25届机械人的秋招建议 #

46176次浏览 246人参与

# 26届秋招公司红黑榜 #

80417次浏览 280人参与

# 阿里巴巴工作体验 #

27012次浏览 61人参与

# 实习生如何通过转正 #

130087次浏览 1477人参与

# 巨人网络工作体验 #

74275次浏览 505人参与

# 巨人网络求职进展汇总 #

190795次浏览 1228人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务