小步快走向前冲

2022-02-18 18:02 已编辑中国科学技术大学数据分析师

关注

数据分析常考SQL问题1

1、求单日留存及一个月的每日留存（快手）

2、sql如何进行优化（拼多多）

参考答案

sql优化看运⾏环境，可以分为mysql和Hive，前者是数据库查询优化，后者基于MapReduce。互联⽹分析师更多是基于Hive查询数据，所以下⽂针对Hive如何优化进⾏分析。

(1) 理解数据仓库的分层和数据粒度是⾸要的。因为相⽐于与数据库是为了数据的储存，更新⽽设计的，数据仓库则是更多为了数据的查询。针对具体的业务需求，选择合适的数据粒度，是sql优化的基础。例如选择⽤户粒度的Hive表，比起访问pv粒度的Hive表，数据量要⼩很多，sql查询也更快。

(2) 针对典型的问题，例如数据倾斜。

产⽣原因

1.group by维度过小,某值的数量过多(后果:处理某值的reduce⾮常耗时)

2.去重

distinct count(distinct xx) 某特殊值过多(后果：处理此特殊值的reduce耗时)

3.连接

join,count(distinct),group by,join等操作，这些都会触发Shuffle动作，⼀旦触发，所有相同key的值就会拉到⼀个或⼏个节点上，就容易发⽣单点问题。

(2)解决方案

1.业务逻辑:例如我们从业务上就知道在做group by时某些key对应数据量很⼤,我们可以单独对这些key做计算,再与其他key进行join

2.Hive参数设置:

设置hive.map.aggr = true 在map中会做部分聚集操作，效率更高但需要更多的内存设置hive.groupby.skewindata=true 数据倾斜时负载均衡，当选项设定为true，⽣成的查询计划会有两个MRJob。第⼀个MRJob中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从⽽达到负载均衡的⽬的；第⼆个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同⼀个Reduce中），最后完成最终的聚合操作。

(3)查询语句优化:

1.在count(distinct) 操作前先进⾏⼀次group by,把key先进⾏⼀次reduce,去重

2.map join:使⽤map join让⼩的维度表（1000 条以下的记录条数）先进内存,在map端完成reduce.

3、是否会SQL、Python、R等分析工具（阿里）

引申

数据分析师通常会使用EXCEL、SQL、Python和R进行数据处理及数据分析的工作。

EXCEL用于小样本量中基本的数据处理操作，而SQL用于从数据库中取数操作，做一些简单的数据处理工作，通过表连接、嵌套查询等动作完成最终的数据统计工作。SQL基本上可以完成大部分的数据分析工作，对当前公司运营的成效进行数据呈现及分析。而Python和R则属于更高阶的分析工作，可以借助多种多样的工具库，可以通过数据建模，可用于有监督或无监督模型的训练，解决分类或预测问题。

4、count()和count(distinct)用法（京东）

参考答案

COUNT() 函数返回匹配指定条件的行数。在表中，一个列可能会包含多个重复值，有时我们希望仅仅列出不同的值，DISTINCT 关键词用于返回唯一不同的值，COUNT(DISTINCT column_name) 函数返回指定列的不同值的数目。

示例：

table1:

要求：从table1的 "country" 列中选取唯一不同的值，也就是去掉 "country" 列重复值

结果：

5、SQL常用函数（京东）

参考答案

（1）常用聚合函数：

（2）常用其它函数：

#面经##阿里巴巴##京东##拼多多##快手##数据分析师#

全部评论

推荐最新楼层

起运来柠檬

中国劳动关系学院数据分析师

介绍的非常详细，感谢大佬的分享！

点赞回复分享

发布于 2022-02-13 14:35

今天 11:44

万得信息_数据算法工程师(准入职员工)

图拉斯内推，图拉斯内推码

ai面总结：AI调教的很好，问的问题很有意思，整场面试不会有很大的压迫感，追问大多是根据你的回答提问。总时长：35分钟Q1:自我介绍，重点介绍一下个人背景和大学期间的主要经历。Q2：你对于在一家公司长期发展有什么看法？你认为哪几点因素会让你在一家公司长期工作？（有追问）Q3：你取得过的最大成就是什么？过程中最大的难点是什么？你是如何突破的？最终的结果怎么样？（有追问2个）Q4：请描述一个过往遇到的最有压力困难或最具挑战的一个场景，你是如何解决的？对你有什么影响？（有追问）Q5：依你的看法，请描述一个你近期完成的项目任务，如果重来一次，你会做哪些不同的事情来提升结果？（有追问2个）Q6：电商运营...

图拉斯AI面32人在聊

点赞评论收藏

分享

01-14 14:34

西安电子科技大学 Java

一次面试让我重新认识了 Cursor

上周面试的时候，面试官突然问我：“你用过 Cursor 对吧，那你知道 rules 嘛？”当时小爱一愣，把问题听成了Cursor的弱势，本来一张嘴就要编了，结果被面试官及时制止，强行纠正了下发音没事，不明白咱可以学。面试完了，小爱同学就去了解了下这个点什么是 Cursor RulesCursor Rules也就是Cursor规则，本质上就是一组“开发规范/约束提示”，告诉 AI 在帮你写代码、生成文件时要遵守的规则。类似于你在写 prompt，但它是持久的，全局生效Cursor Rules 有两种类型：全局规则（User Rules）、项目规则（Project Rules），全局适用于所有项目...

越今朝0：我实习的时候花了半个月专门研究cursor

查看1道真题和解析

点赞评论收藏

分享

2025-12-16 17:17

门头沟学院产品经理

这样对一个实习生真的对吗

总感觉自己没有被尊重

烤点老白薯：他第二句话的潜台词是想让你帮他点个瑞幸或者喜茶啥的

mt对你说过最有启发的一...

点赞评论收藏

分享

01-12 09:24

门头沟学院 Java

字节露头就秒

不是说字节投就给面吗，我怎么露头就被秒😅

叁六玖：信他们还是信我是秦始皇

点赞评论收藏

分享

01-12 14:05

顺丰集团_HR(准入职员工)

顺丰内推，顺丰内推码

1月还有很多HC!!!!java笔试题目：用 Python 实现一个函数，用于计算斐波那契数列的第 n 项。以下 Java 代码片段是否存在问题？如果有，请指出并改正。简述 C++ 中指针和引用的区别。实现一个二叉树的中序遍历算法，可使用递归或非递归方式。对于一个无序整数数组，使用快速排序算法对其进行排序，并分析该算法的时间复杂度和空间复杂度。设计一个算法，判断一个字符串是否为回文串，要求时间复杂度尽可能低。简述 TCP 三次握手和四次挥手的过程，并说明为什么连接建立是三次握手，而连接释放是四次挥手。一台主机的 IP 地址为 192.168.1.100，子网掩码为 255.255.255.0，...

点赞评论收藏

分享

评论

8

143

招聘动态

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你都在哪些场所面过试？ #

910次浏览 13人参与

# 求职你最看重什么？ #

151684次浏览 879人参与

# 上班以后，你还有哪些坚持的爱好？ #

336次浏览 12人参与

# 制造业的秋招小结 #

139149次浏览 2078人参与

# 哪些公司开春招了？ #

334次浏览 9人参与

# 秋招有哪些公司要求提前实习 #

100829次浏览 524人参与

# 工作压力大怎么缓解 #

132112次浏览 1135人参与

# 担心入职之后被发现很菜怎么办 #

275516次浏览 1176人参与

# 哪些公司对双非友好 #

200461次浏览 1150人参与

# 电信求职进展汇总 #

37966次浏览 195人参与

# 运营商笔面经互助 #

195248次浏览 1803人参与

# 电网求职进展汇总 #

37040次浏览 111人参与

# 被说“做题家”，你的反应是_____？ #

4341次浏览 121人参与

# Prompt分享 #

4858次浏览 129人参与

# 实习转正进行时 #

136600次浏览 873人参与

# 你都见过什么样的草台班子？ #

14274次浏览 104人参与

# 机械人，秋招第一次笔试的企业是哪家？ #

86535次浏览 623人参与

# 米哈游求职进展汇总 #

533467次浏览 2921人参与

# 找实习记录 #

54910次浏览 682人参与

# 打工人锐评公司红黑榜 #

190744次浏览 1048人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务