牛客职导官方账号

2021-06-17 16:55 牛客运营

关注

SQL题目分析

4.2.2 SQL题目解析

1. sql如何进行优化？

【参考答案】

SQL优化看运行环境，可以分为mysql和Hive，前者是数据库查询优化，后者基于MapReduce。互联网分析师更多是基于Hive查询数据，所以下文针对Hive如何优化进行分析。

1) 理解数据仓库的分层和数据粒度是首要的。因为相⽐于与数据库是为了数据的储存，更新而设计的，数据仓库则是更多为了数据的查询。针对具体的业务需求，选择合适的数据粒度，是sql优化的基础。例如选择用户粒度的Hive表，比起访问pv粒度的Hive表，数据量要⼩很多，sql查询也更快。

2) 针对典型的问题，例如数据倾斜。

产生原因:

a) group by维度过小,某值的数量过多(后果:处理某值的reduce⾮常耗时)

b) 去重

distinct count(distinct xx) 某特殊值过多(后果：处理此特殊值的reduce耗时)

c) 连接

join,count(distinct),group by,join等操作，这些都会触发Shuffle动作，⼀旦触发，所有相同key的值就会拉到⼀个或⼏个节点上，就容易发⽣单点问题。

3) 解决方案

a) 业务逻辑:例如我们从业务上就知道在做group by时某些key对应数据量很⼤,我们可以单独对这些key做计算,再与其他key进行join

b) Hive参数设置:

设置hive.map.aggr = true 在map中会做部分聚集操作，效率更高但需要更多的内存设置hive.groupby.skewindata=true 数据倾斜时负载均衡，当选项设定为true，⽣成的查询计划会有两个MRJob。第⼀个MRJob中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从⽽达到负载均衡的⽬的；第⼆个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同⼀个Reduce中），最后完成最终的聚合操作。

4) 查询语句优化:

a) 在count(distinct)操作前先进⾏⼀次group by,把key先进⾏⼀次reduce,去重

b) map join:使⽤map join让⼩的维度表（1000条以下的记录条数）先进内存,在map端完成reduce.

2. UNION和JOIN的区别

【参考答案】

UNION是两张表进行上下拼接，产生的两个记录集(字段要一样的)并在一起，成为一个新的记录集，分为UNION和UNION ALL两种方法；JOIN 是两张表进行左右连接，条件匹配的记录将合并产生一个记录集，有LE、、、等多种方法。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

互联网校招开挂攻略（产品/运营）文章被收录于专栏

如果你问：“什么时候你才真正觉得接近了秋招？” 那一定是：“收到牛客绿皮书那一刻” 连续六年，整合各大名企秋招考题只为做到校招届的【五年高考三年模拟】 20家大厂授权，本次公开 200页笔面试真题解析合集 4大互联网热门岗位保姆级攻略—你的求职绿卡！

全部评论

推荐最新楼层

02-26 15:38

海康威视_产品经理(准入职员工)

安克创新内推安克创新内推

工作真实感受【Work in Anker】 🌟入职流程：非常顺畅，会有HR专门为你办理入职手续，然后会有你的mentor，leader，hrbp或者其他同事引导你去领取工作资产（Windows和Mac系统都有）并且带你去工位。我的mentor第一天就请我喝了咖啡吃了饭～开心🥳 🎁入职礼物：入职礼物有anker的马克杯，帆布袋，校招生还有安克的充电宝（图4）！安克的充电宝原来真的这么小一只，怪不得叫口红充电宝，而且CMF做的深得我心，颜色都好好看哇！ 💻办公系统：像字节，蔚来，小米等公司一样，anker同样使用飞书办公系统，用过飞书的都知道哈，飞书非常高效，用户友好，有了飞书办公效率杠杠...

字节跳动公司福利 1380人发布

点赞评论收藏

分享

02-27 16:06

西安电子科技大学 Java

字节二面挂了！被问 “订单超时自动取消”，我只答 “定时任务”，面试官：千万级数据你怎么跑？

写在开头：昨天一位 3 年经验的兄弟找我哭诉，说字节二面挂得莫名其妙。 面试官问了一个很经典的业务题：“淘宝/美团的订单，如果用户下单 30 分钟没支付，怎么自动取消订单？”他想都没想直接回答：“简单啊，写个定时任务（Schedule），每分钟去数据库捞一次，把超过 30 分钟的订单查出来，状态改成取消不就行了？”面试官听完，连问了三个问题：“如果数据库里有 1000 万条未支付订单，你每一分钟全表扫一次？数据库不崩吗？”“你每分钟扫一次，那用户第 1 分钟下单，岂不是可能第 31 分 59 秒才被取消？延迟这么大能接受吗？”“如果你的定时任务机器挂了，或者任务执行时间超过了 1 分钟，这期间...

查看9道真题和解析

点赞评论收藏

分享

02-02 14:08

哈尔滨工业大学移动通讯工程师

26届，大学摆烂，现在很迷茫

没有实习没有项目经历，还有弥补的方法了吗

匿名小透明：哈工大还说啥了

点赞评论收藏

分享

02-25 21:07

华南理工大学 golang

27实习产出疑惑

之前在公司混了三个月，做的活主要是mt看到啥想到个东西就让我去做了，比如写写工具或者看到个数据没及时更新就叫我去写个定时任务刷刷数据啥的，属于是没有也不打紧的那种需求，唯一一个比较完整的有数据指标需求是看组里文档和代码学的，属于提效项目而且组里我能接触到的代码都是内部平台基本没什么并发量，也没太多技术，就是crud，三个月连redis都没摸到过😅🐀想问下找暑期面试官会愿意听内部平台的内部逻辑业务吗

点赞评论收藏

分享

02-24 20:17

武汉大学前端工程师

相求问下我的简历该怎么优化？很多hr拿到简历之后就不回复了很难受

本2华为软开，最近要看外面机会了，有点不太会包装，怎么才能让hr愿意给一个面试的机会呢？

开工第一帖

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# xx岗简历求拷打 #

21569次浏览 187人参与

# 牛友的志愿填报指南 #

50538次浏览 245人参与

# 有转正机会的小厂实习值得去吗？ #

12980次浏览 127人参与

# 找工作有哪些冷知识 #

227509次浏览 2701人参与

# 你最讨厌面试被问什么 #

14085次浏览 155人参与

# 今年形式下双非本找得到工作吗 #

288726次浏览 1645人参与

# 应届生，你找到工作了吗 #

110194次浏览 665人参与

# 听劝，这个简历怎么改 #

384003次浏览 1834人参与

# 如果再来一次，你还会学硬件吗 #

155387次浏览 1459人参与

# 业务面应该做哪些准备 #

96201次浏览 1055人参与

# 你上一次加班是什么时候？ #

134213次浏览 748人参与

# 招聘要求与实际实习内容不符怎么办 #

171391次浏览 933人参与

# 你找工作的时候用AI吗？ #

178152次浏览 916人参与

# 毕业季，给职场新人一些建议 #

191674次浏览 2504人参与

# 你怎么看待AI面试 #

152812次浏览 816人参与

# 开工第一帖 #

69478次浏览 1157人参与

# 实习心态崩了 #

104858次浏览 525人参与

# 找工作中的意难平 #

995680次浏览 6435人参与

# 跳槽时有那些注意事项 #

124707次浏览 592人参与

# 掌握什么AI技能，会为你的求职大大加分 #

15230次浏览 556人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务