首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
课程
专栏·文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
牛客162169213号
门头沟学院 金融学类
发布于北京
关注
已关注
取消关注
@子虚乌有先生:
日常实习面经:滴滴-数据科学
TimeLine:一面20211109当时的BG:北邮本硕,管理类专业,一段实习经历:美团商业分析师写在前面的话:该文档记录日常实习面试的相关问题,面试时间为2021年。以下问题的答案可能存在错误,敬请读者批评指正一面1. 数据库种类有哪些?分别举例说明一下?1)关系型数据库:Oracle,Microsoft SQL Server,MySQL2)非关系型数据库:HBase2. 简要介绍一下Hive先介绍Hadoop,Hadoop是一整套大数据生态系统,主要包括:1)HDFS:海量数据的存储2)MapReduce:海量数据的分析和计算3)Yarn:资源管理和作业调度其中,MapReduce本质上是一类分布式计算框架,底层由Java写成,在实现海量数据的分析和计算上具有一定的开发难度,Hive应运而生。Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张类似关系型数据库的数据表,提供了类似SQL(通常称其为HQL)的查询功能,简言之,Hive是一个将SQL任务转换为MR任务的工具3. SQL中的join有几种?4. SQL中如何实现分组排序?row_number() over(partition by ... order by ...)rank() over(partition by ... order by ...)dense_rank() over(partition by ... order by ...)5. SQL考察数据表:用户表user_profile,字段有:user_id '用户id',login_date 登陆时间'找出连续登录时间最长的用户with a as(select user_id, login_date,row_number() over(partition by user_id order by login_date ASC) as rnfrom user_profile),with b as(select user_id, date_sub(login_date, rn) as login_startfrom a),with c as(select user_id, login_start, count(login_start)as continuous_daysfrom bgroup by user_id, login_start)select user_idfrom cgroup by user_idhaving continuous_days = max(continuous_days)6. 缺失值处理的方式?1)缺失比例过高直接舍弃2)均值/众数/中位数填充3)插值法填充(e.g.牛顿插值法)4)机器学习算法填充(以想要填充的列为label,其他数据列为features)7. 离散化特征转为连续性特征的方法?1)顺序型特征有先后顺序,直接作数值变换2)名义型特征没先后顺序,作one-hot或dummy变换8. 数据集不均衡的解决方法?1)采用ROC曲线下AUC作为分类判定标准,该指标不会受到样本集分布不均衡的影响2)过采样和欠采样(基于数据的方法)过采样,即增加少数类样本集的样本量,如SMOTE算法、Tomek Links算法等欠采样,即减少多数类样本集的样本量,如Easy Ensemble算法、NearMiss算法等3)调整正负样本的权重惩罚(基于算法的方法)改变模型训练时的目标函数,对少数类样本分类赋高权重,多数类样本分类赋低权重4)转化为单类学习、异常检测(基于算法的方法)注:从第9题开始,其后问题的答案均可在《百面机器学习》这本书中得到,十分推荐大家阅读一下这本书9. 是否了解集成学习?简要介绍一下思想?注:回答围绕bagging和boosting即可,并举例说明1)bagging:随机森林RF2)boosting:GBDT/XGBOOST/LightGBM10. 偏差和方差的概念?和bagging、boosting有什么关系?1)偏差bias:模型输出值与真实结果的偏离程度,boosting能有效改善这一点2)方差variance:模型输出值与模型输出值均值的平方差,bagging能有效改善这一点此处有追问:为什么bagging能够改善方差?boosting能够改善偏差?针对“为什么bagging能够改善方差?”bagging是对样本集做重采样,对重采样后的样本集训练模型,对多个模型的输出取平均。由于重采样后子样本集的相似性,所以各模型具有相似的偏差和方差,因此不会显著降低偏差。下面详细讲解bagging 能改善方差的原因:假设各模型间相互独立,则有若各模型完全相同,则有bagging方法得到的各模型间是有相关性的,因此模型输出均值的方差区间为针对“boosting能够改善偏差?”boosting本质上是前向加法模型,从优化角度来看,就是不断通过迭代的方式最小化损失函数其偏差自然是下降的。但这种sequential、adptive的策略使得模型之间的相关性很强,所以boosting本质上不会降低方差
点赞 16
评论 1
全部评论
推荐
最新
楼层
网易互娱
校招火热招聘中
官网直投
相关推荐
SpadeKX
05-19 09:55
已编辑
河北大学 计算机类
苦涩失败者 >> Hello Nowcoder
以下是失败者的自白#打油诗付#初九夜书勃兰登保桑拿房 落榜艺术生SK(作)自学找挖小牛马, 鸡鸣抠顶三更罢. 四飞摆光无人赏, 破败蕊尊处处藏.(* 赏析见文末)---你好, 我是玄桃K - SpadeKTLSG. 温两碗酒, 要一个秋招前的25届实习.还记得2个月前自己眼高手低了, 敲锣打鼓梭哈暑期实习, 心想0实习0竞赛但不冲大厂中厂后端总能拿下罢? 但当我真正爬出襁褓后才发现, 我的水平实在差大伙的太远了. 并且我的知识体系在快速腐烂, 思维花园一时间呈现草盛豆苗稀的"勃勃生机". 于是我只得重新集结力量, 以期在下一跳反向进攻到更好...
我的实习日记
25届暑期实习
点赞
评论
收藏
转发
牛客952278
昨天 16:54
上海交通大学 计算机类
25实习最后的倔强
溜了溜了,实习是个啥,不认识
点赞
评论
收藏
转发
slin__
05-19 17:54
已编辑
门头沟学院 计算机类
对不起,我找不到工作影响学校的生存了
点赞
评论
收藏
转发
sanyuanchen
04-19 10:16
门头沟学院 电子信息类
#硬件人求职现状# 二本嵌入式 求收留 佬们指点一下
硬件人求职现状
点赞
评论
收藏
转发
fghhh
05-15 18:56
淘天集团_c开发(实习员工)
实习生都几点下班
阿里系实习生们,在没有打卡和固定作息的组里,大家都几点走的参考下
投递阿里巴巴等公司10个岗位 >
实习生应该准时下班吗
我的实习求职记录
点赞
评论
收藏
转发
点赞
收藏
评论
分享
回复帖子
提到的真题
返回内容
全站热榜
1
...
因为找实习和女朋友分手了
9016
2
...
开摆了,写小说去了
6811
3
...
【有奖活动】浅聊一下我的实习⭐
6691
4
...
没offer的我们也很优秀偶
6571
5
...
写在最后,一个大专人9年的自述
6544
6
...
双非本 腾讯WXG暑期已offer | 附面经
6162
7
...
荣耀一面
5170
8
...
华为暑期开奖
5065
9
...
华为暑期开奖
4597
10
...
滴滴秋储-服务端开发 OC
3851
正在热议
#
牛客帮帮团来啦!有问必答
#
835283次浏览
13162人参与
#
机械制造薪资爆料
#
321379次浏览
3742人参与
#
晒一晒我的offer
#
3482116次浏览
55377人参与
#
0offer是寒冬太冷还是我太菜
#
429948次浏览
4954人参与
#
金三银四,你有感觉到吗
#
330819次浏览
4233人参与
#
实习生如何通过转正
#
27610次浏览
361人参与
#
海康威视求职进展汇总
#
102454次浏览
1222人参与
#
我在牛爱网找对象
#
51188次浏览
336人参与
#
毕业租房也有小确幸
#
27336次浏览
1493人参与
#
实习生应该准时下班吗
#
81306次浏览
598人参与
#
如何写一份好简历
#
277038次浏览
4118人参与
#
软件开发投递记录
#
480083次浏览
7254人参与
#
如果可以选,你最想从事什么工作
#
187146次浏览
3097人参与
#
荣耀求职进展汇总
#
72116次浏览
738人参与
#
实习必须要去大厂吗?
#
14188次浏览
225人参与
#
你遇到过哪些神仙同事
#
18954次浏览
282人参与
#
求职遇到的搞笑事件
#
19769次浏览
287人参与
#
你觉得找工作该拿大厂还是小厂练手
#
62060次浏览
873人参与
#
你觉得通信/硬件有必要实习吗?
#
23730次浏览
429人参与
#
实习工作,你找得还顺利吗?
#
43272次浏览
478人参与
牛客网
牛客企业服务