日常实习面经：滴滴-数据科学_牛客网

门头沟学院工商管理类发布于北京

关注

@子虚乌有先生：日常实习面经：滴滴-数据科学

TimeLine：一面20211109当时的BG：北邮本硕，管理类专业，一段实习经历：美团商业分析师写在前面的话：该文档记录日常实习面试的相关问题，面试时间为2021年。以下问题的答案可能存在错误，敬请读者批评指正一面1. 数据库种类有哪些？分别举例说明一下？1)关系型数据库：Oracle，Microsoft SQL Server，MySQL2)非关系型数据库：HBase2. 简要介绍一下Hive先介绍Hadoop，Hadoop是一整套大数据生态系统，主要包括：1)HDFS：海量数据的存储2)MapReduce：海量数据的分析和计算3)Yarn：资源管理和作业调度其中，MapReduce本质上是一类分布式计算框架，底层由Java写成，在实现海量数据的分析和计算上具有一定的开发难度，Hive应运而生。Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射成一张类似关系型数据库的数据表，提供了类似SQL（通常称其为HQL）的查询功能，简言之，Hive是一个将SQL任务转换为MR任务的工具3. SQL中的join有几种？4. SQL中如何实现分组排序？row_number() over(partition by ... order by ...)rank() over(partition by ... order by ...)dense_rank() over(partition by ... order by ...)5. SQL考察数据表：用户表user_profile，字段有：user_id '用户id'，login_date 登陆时间'找出连续登录时间最长的用户with a as(select user_id, login_date,row_number() over(partition by user_id order by login_date ASC) as rnfrom user_profile),with b as(select user_id, date_sub(login_date, rn) as login_startfrom a),with c as(select user_id, login_start, count(login_start）as continuous_daysfrom bgroup by user_id, login_start)select user_idfrom cgroup by user_idhaving continuous_days = max(continuous_days)6. 缺失值处理的方式？1)缺失比例过高直接舍弃2)均值/众数/中位数填充3)插值法填充（e.g.牛顿插值法）4)机器学习算法填充（以想要填充的列为label，其他数据列为features）7. 离散化特征转为连续性特征的方法？1)顺序型特征有先后顺序，直接作数值变换2)名义型特征没先后顺序，作one-hot或dummy变换8. 数据集不均衡的解决方法？1)采用ROC曲线下AUC作为分类判定标准，该指标不会受到样本集分布不均衡的影响2)过采样和欠采样（基于数据的方法）过采样，即增加少数类样本集的样本量，如SMOTE算法、Tomek Links算法等欠采样，即减少多数类样本集的样本量，如Easy Ensemble算法、NearMiss算法等3)调整正负样本的权重惩罚（基于算法的方法）改变模型训练时的目标函数，对少数类样本分类赋高权重，多数类样本分类赋低权重4)转化为单类学习、异常检测（基于算法的方法）注：从第9题开始，其后问题的答案均可在《百面机器学习》这本书中得到，十分推荐大家阅读一下这本书9. 是否了解集成学习？简要介绍一下思想？注：回答围绕bagging和boosting即可，并举例说明1)bagging：随机森林RF2)boosting：GBDT/XGBOOST/LightGBM10. 偏差和方差的概念？和bagging、boosting有什么关系？1)偏差bias：模型输出值与真实结果的偏离程度，boosting能有效改善这一点2)方差variance：模型输出值与模型输出值均值的平方差，bagging能有效改善这一点此处有追问：为什么bagging能够改善方差？boosting能够改善偏差？针对“为什么bagging能够改善方差？”bagging是对样本集做重采样，对重采样后的样本集训练模型，对多个模型的输出取平均。由于重采样后子样本集的相似性，所以各模型具有相似的偏差和方差，因此不会显著降低偏差。下面详细讲解bagging 能改善方差的原因：假设各模型间相互独立，则有若各模型完全相同，则有bagging方法得到的各模型间是有相关性的，因此模型输出均值的方差区间为针对“boosting能够改善偏差？”boosting本质上是前向加法模型，从优化角度来看，就是不断通过迭代的方式最小化损失函数其偏差自然是下降的。但这种sequential、adptive的策略使得模型之间的相关性很强，所以boosting本质上不会降低方差

点赞 16

评论 1

全部评论

推荐最新楼层

牛客296407561号

05-16 23:41

中山大学数学类

钉钉三面AOP的原理?IOC是干嘛的？自动装配的原理？IOC在JVM层面是怎么实现的？(这个不会)类加载过程单例实现方式CSRF原理？技术层面是怎么实现的？同源策略怎么规避CSRF？https协议改变公钥怎么通知？http协议常见方法和字段Redis常见数据类型适用于什么场景反问：为什么课程上的东西从来不问？ 大意就是学习能力，课本以外的东西。使用一个东西要明白他的原理。

阿里巴巴三面32人在聊我的实习求职记录

点赞评论收藏

转发

05-12 09:44

腾讯_WXG_软件开发

捞简历这件事儿

周记停更说明！以后不再更新周记了，我已经快入职半年了，很多新鲜的事儿已经变得很日常了，再往下写可能就是关于工作的内容了，而且太隐私了，容易被开盒，所以即日起停更周记。之后我会换一种形式在牛客更新。这周的主题是：帮组里捞简历这件事儿前情提要：上周组里新增了两个 Android 客户端的暑期实习 hc ， 这两个 hc 就是想要招两个暑期实习生转正留用的，也就是作为今年的秋招生预备人。因为 hc 不是固定的，它总是突然出现，hr 告诉组里有 hc ，那就开始招人吧。招人有的是面试官直接去系统捞简历，也有一些是 hr 推给面试官的。在鹅厂，申请成为面试官有职级要求，需要工作多年才能成为面试官，具体是...

投递腾讯等公司8个岗位 > 简历中的项目经历要怎么写

点赞评论收藏

转发

国家退堂鼓艺术家

03-28 16:24

C++

目前C++已经被拒的公司

点赞评论收藏

转发

04-29 20:16

唐山师范学院计算机类

❤️职场感受7k 996 我看谁能去

点赞评论收藏

转发

积极的啊吉

05-16 18:19

天津职业技术师范大学计算机类

求大佬指点

点赞评论收藏

转发

点赞收藏评论

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

761853次浏览 12061人参与

# 海康威视求职进展汇总 #

96010次浏览 1156人参与

# 你的工作大概什么时候入职？ #

3475次浏览 45人参与

# Offer比较，你最看重什么？ #

51909次浏览 499人参与

# 非技术2024笔面经 #

181735次浏览 3053人参与

# 非技术岗是怎么找实习的 #

76350次浏览 1422人参与

# 实习生应该准时下班吗 #

78941次浏览 583人参与

# 产品实习，你更倾向大公司or小公司 #

37973次浏览 583人参与

# 学历对求职的影响 #

136767次浏览 1556人参与

# 签约/解约注意事项 #

67370次浏览 647人参与

# 今年形式下双非本找得到工作吗 #

7813次浏览 161人参与

# 面试等了一周没回复，还有戏吗 #

41488次浏览 510人参与

# 春招已经启动啦硬件uu开始投了吗？ #

86643次浏览 678人参与

# 找工作中的意难平 #

192096次浏览 3409人参与

# 百度工作体验 #

24163次浏览 248人参与

# 考研失败就一定是坏事吗？ #

20817次浏览 217人参与

# 2022届毕业生现状 #

322045次浏览 4448人参与

# 华为求职进展汇总 #

525045次浏览 5009人参与

# 正在春招的你，也参与了去年秋招吗？ #

134886次浏览 1699人参与

# 0offer是寒冬太冷还是我太菜 #

419171次浏览 4852人参与

牛客网
牛客企业服务