子虚乌有先生

2023-03-21 20:23 已编辑北京邮电大学项目经理发布于北京

关注

日常实习面经：滴滴-数据科学

TimeLine：一面20211109

当时的BG：北邮本硕，管理类专业，一段实习经历：美团商业分析师

写在前面的话：该文档记录日常实习面试的相关问题，面试时间为2021年。以下问题的答案可能存在错误，敬请读者批评指正

一面

1. 数据库种类有哪些？分别举例说明一下？

1)关系型数据库：Oracle，Microsoft SQL Server，MySQL

2)非关系型数据库：HBase

2. 简要介绍一下Hive

先介绍Hadoop，Hadoop是一整套大数据生态系统，主要包括：

1)HDFS：海量数据的存储

2)MapReduce：海量数据的分析和计算

3)Yarn：资源管理和作业调度

其中，MapReduce本质上是一类分布式计算框架，底层由Java写成，在实现海量数据的分析和计算上具有一定的开发难度，Hive应运而生。Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射成一张类似关系型数据库的数据表，提供了类似SQL（通常称其为HQL）的查询功能，简言之，Hive是一个将SQL任务转换为MR任务的工具

3. SQL中的join有几种？

4. SQL中如何实现分组排序？

row_number() over(partition by ... order by ...)
rank() over(partition by ... order by ...)
dense_rank() over(partition by ... order by ...)

5. SQL考察

数据表：用户表user_profile，字段有：user_id '用户id'，login_date 登陆时间'

找出连续登录时间最长的用户

with a as
(
select user_id, login_date,
row_number() over(partition by user_id order by login_date ASC) as rn
from user_profile
),
with b as
(
select user_id, date_sub(login_date, rn) as login_start
from a
),
with c as
(
select user_id, login_start, count(login_start）as continuous_days
from b
group by user_id, login_start
)
select user_id
from c
group by user_id
having continuous_days = max(continuous_days)

6. 缺失值处理的方式？

1)缺失比例过高直接舍弃

2)均值/众数/中位数填充

3)插值法填充（e.g.牛顿插值法）

4)机器学习算法填充（以想要填充的列为label，其他数据列为features）

7. 离散化特征转为连续性特征的方法？

1)顺序型特征有先后顺序，直接作数值变换

2)名义型特征没先后顺序，作one-hot或dummy变换

8. 数据集不均衡的解决方法？

1)采用ROC曲线下AUC作为分类判定标准，该指标不会受到样本集分布不均衡的影响

2)过采样和欠采样（基于数据的方法）

过采样，即增加少数类样本集的样本量，如SMOTE算法、Tomek Links算法等

欠采样，即减少多数类样本集的样本量，如Easy Ensemble算法、NearMiss算法等

3)调整正负样本的权重惩罚（基于算法的方法）

改变模型训练时的目标函数，对少数类样本分类赋高权重，多数类样本分类赋低权重

4)转化为单类学习、异常检测（基于算法的方法）

注：从第9题开始，其后问题的答案均可在《百面机器学习》这本书中得到，十分推荐大家阅读一下这本书

9. 是否了解集成学习？简要介绍一下思想？

注：回答围绕bagging和boosting即可，并举例说明

1)bagging：随机森林RF

2)boosting：GBDT/XGBOOST/LightGBM

10. 偏差和方差的概念？和bagging、boosting有什么关系？

1)偏差bias：模型输出值与真实结果的偏离程度，boosting能有效改善这一点

2)方差variance：模型输出值与模型输出值均值的平方差，bagging能有效改善这一点

此处有追问：为什么bagging能够改善方差？boosting能够改善偏差？

针对“为什么bagging能够改善方差？”

bagging是对样本集做重采样，对重采样后的样本集训练模型，对多个模型的输出取平均。由于重采样后子样本集的相似性，所以各模型具有相似的偏差和方差，因此不会显著降低偏差。下面详细讲解bagging能改善方差的原因：

假设各模型间相互独立，则有

若各模型完全相同，则有

bagging方法得到的各模型间是有相关性的，因此模型输出均值的方差区间为

针对“boosting能够改善偏差？”

boosting本质上是前向加法模型，从优化角度来看，就是不断通过迭代的方式最小化损失函数

其偏差自然是下降的。但这种sequential、adptive的策略使得模型之间的相关性很强，所以boosting本质上不会降低方差

#日常实习##数据分析##滴滴#

全部评论

推荐最新楼层

湖南大学数据挖掘

bagging和boosting这里问的好详细啊

点赞回复分享

发布于 2023-07-02 20:48 湖南

11-19 17:22

已编辑

百度_高级研发工程师

我父母让我忍受所有工作上的欺辱

今天早上，我坐在摩托车上，没有出发，坐着哭了一会，本来不打算说的，但是又觉得没什么不能说的。 工作的压力，通勤的距离，怀孕的老婆，不足的睡眠，未竟的事业，评论的攻击，朋友的嘲讽，如果你也有一天会感受到这些东西，你就会知道这有多么沉重。 太苦了，最近刚到大厂，睁眼上班、到家睡觉，没有个人时间，甚至睡眠都保证不了八小时，凛冽的北风中，每天要骑行130km上班，周末要写文章，要写脚本，要拍视频，要学习知识。   但我相信，念念不忘，必有回响，最难的时候，就是将要见到曙光的时候，他们总会给我离谱的建议。一、他们要我忍常人所不能忍，可自己却可以例外 都说父母是孩子最好的榜样，可是我是在质疑中成长到今天的...

牛客小黄鱼：年轻的时候，把资源投入到个人成长上，远比被房子、稳定绑架更有价值

你父母给过你哪些不靠谱的...

点赞评论收藏

分享

11-16 22:28

门头沟学院 Java

抠门打工人在美团上班，一天花销 0.5 元

房租：0元 ，最近搬家了，住的是未婚的老姐买的房，省租的快乐谁懂哦~(¯▽¯~)~吃饭：0元 ，早上九点半起床直接跳过早饭，12点准时开始午饭，可以用30块餐补覆盖，因为减肥所以不吃晚饭，主打一个省钱减肥(´•ω•)ﾉ(._.`)通勤：0.5元 ，因为骑电动车上下班，两天充一次电1块钱，日均5毛搞定～娱乐：0元， 午饭后会溜去文创店逛一圈，只过眼瘾不花钱，主打一个纯纯欣赏总花费：0.5元 ，全靠电动车电费撑场面，省钱小能手本人！

投递美团等公司10个岗位

点赞评论收藏

分享

10-10 11:38

已编辑

湖南理工大学 Java

26届还没找到日常实习，求支招

简历有啥需要改动的嘛

小浪_Coding：多沟通叭, 公式简历+学历一般的话难找

点赞评论收藏

分享

11-18 13:22

韶音科技_产品经理(准入职员工)

韶音科技内推，韶音科技内推码

  1. 自我介绍    2. 人事问答：    （1）你的研究方向？你们课题组的研究方向有哪些？    （2）分工？    （3）项目简述：项目背景？解决什么问题？你做了哪些工作？结构怎样设计的？工作过程中有探索性学习？动手实践吗？项目进展？    （4）实验室有多少人？   （5）博士有吗？    （6）做项目会有老师或者博士师兄师姐指导？    （7）往届师兄他们毕业的去向？就业方向？    （8）有投递其他公司的提前批或者暑期实习？投了哪些公司？投的什么岗位？到什么流程了？    （9）期望薪资？    （10）选择企业考量的因素？    （11）谈谈对公司的了解？    （12）通过...

点赞评论收藏

分享

评论

18

123

招聘动态

MiniMax

2026校园招聘

字节跳动火山引擎

2026校园招聘

字节跳动

2026校园招聘

快手

2026届校园招聘

中国证券登记结算有限责任公司

2026年度招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 那些年，我收到的‘奇葩’回复 #

26922次浏览 167人参与

# 蚂蚁求职进展汇总 #

132207次浏览 1207人参与

# 腾讯音乐秋招 #

431581次浏览 4779人参与

194142次浏览 1336人参与

# 材料转码还有必要吗？ #

31345次浏览 147人参与

# 职场中那些令人叹为观止的八卦 #

32099次浏览 252人参与

# 小红书开奖了 #

33298次浏览 163人参与

# 为了秋招你都做了哪些准备？ #

25228次浏览 497人参与

# 材料人，你最希望上岸的是？ #

12588次浏览 58人参与

# 哪些行业值得去? #

10393次浏览 63人参与

# 实习需要主动找活干吗？ #

55763次浏览 296人参与

# 你知道哪些职场黑话？ #

63991次浏览 445人参与

# 秋招你经历过哪些无语的事 #

24527次浏览 248人参与

# 牛客十周岁生日快乐 #

185442次浏览 1827人参与

# 秋招投简历越早越好吗 #

99083次浏览 839人参与

# 你今年的保底offer是哪家 #

144495次浏览 620人参与

# 校招薪资来揭秘 #

90403次浏览 566人参与

# 2022毕业即失业取暖地 #

120886次浏览 709人参与

# 实习教会我的事 #

42569次浏览 342人参与

# AI时代，哪些岗位最容易被淘汰 #

13058次浏览 103人参与

# 你秋招最后悔的选择 #

20334次浏览 142人参与

# 秋招吐槽大会 #

97826次浏览 830人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务