数据分析岗面经还愿

数据分析岗面经还愿

都说2022年是互联网寒冬,亲身真正经历后来看,深圳寒冬这说法完全不过分。深圳互联网厂太少了,动不动就是锁hc。历时近2个月,本人面了大部分深圳、一点点上海岗位,把所有的面经做了整合后分享给其他牛牛们,以此感谢这两个月从平台也获得的他人经验,也是对最后获得的offer的还愿啦~

写在开头的建议:

  1. 真心建议面试前/投简历时先了解清楚在招的岗位是否和自己的能力、职业规划匹配!!如果JD信息不明确,建议先提前沟通清楚,避免面试过程发现不是自己想做的,会很浪费精力(面不过影响情绪,面过也容易被养鱼),还错过了投其他岗位的黄金时间。综合我自己本阶段的几次面试经历,有些公司对数据分析岗的定位是当数据工程来用,工作内容偏数仓搭建、数据治理等;有些是纯业务分析(偏BI),还有一些偏数挖。

  2. 自我介绍部分大概准备3分钟,涵盖自己简历上最近一份工作的内容、项目。面试官大多不会提前看简历的,所以自我介绍的时候其实是给对方留时间看你的简历,这样有助于对方基于简历问你的项目。我试过自我介绍的时间太短,面试官只够看我一个项目的内容,后面就只问了我这个项目的一些信息后就开始考他们的业务题了,完全没有机会让你展示自己以前的丰功伟绩。。。后面调整后,和面试官对于简历上的项目聊的也更多了。

  3. 准备一个自己做过的比较完整的数分项目/数分例子的介绍。包括项目背景、自己负责什么、怎么做了、效果怎么样。(最好能完整的讲一个故事出来,有些公司会在意和业务方的合作模式,做个主动推动的数分。。)

  4. 还是得稍微刷下sql题的。。。太久没用有点生疏第一次被考的时候懵了。。。主要是窗口函数,考来考去都是它。基本上字节、虾皮、富途都会考。


2个月里,一边面试一边完善自己的知识库(大概是过去和未来3年的知识巅峰吧hhh),前前后后面试了10+公司吧。。


面经正文:

字节

(我共面了3个部门的岗位,有不合适的,也有到谈薪阶段的,面试题都混来在一起了。字节的hr有多热情,面试官就有多无情hhh。只要不是能力问题,都会被秒换部门继续约面。。所以要有不怕挂的精神,毕竟面试官觉得你适不适合也是很玄学的事)

  1. 基于我的项目里的指标体系的建设讲解:为什么选择渗透率而不是DAU?双边市场的指标,认为哪方更重要,为什么?

  2. 怎么选择北极星指标

  3. 举个自己做数据分析有落地的例子(挑自己的一个项目,把前因后果讲清楚)

  4. aha moment的拐点分析,为什么选择留存指标作为y轴?

  5. 项目里的分群划分标准和方式。

  6. 推荐效果指标不好,产品说推荐算法不准,没有把内容精准推给用户;算法说是内容质量问题,怎么评估这个问题?

  7. AB两个人,A有100个硬币,B有99个硬币,正1分,负0分,最后得分A>B的概率。(答案:1/2。参考答案

  8. 如果要提升复购率怎么做分析?

  9. 项目里做了实时看板,问看板的设计逻辑?

  10. 怎么判断用户流失?流失周期怎么设定?

  11. 新用户发券ROI怎么衡量?——其实是想引申出ab实验设计、最小样本量设计(众所周知字节喜欢问ab,不过这个ab问的很有技巧。)

  12. 在印尼公交车站上广告牌,怎么衡量广告牌的转化提升?—— DID,PSM(在其他区域寻找相似人群的数据,DID对比),用新增购买UV来做衡量指标

  13. 效果评估有什么方法,怎么去除干扰因素?

  14. 不做abtest的话,对于新业务有什么评估方式?

  15. 最近常用的app,分析优势、劣势(可以挑个自己的产品好好准备下,被给自己挖坑,我挖了个我觉得推荐的内容不丰富/重复的坑,然后跳进去出不来了。。。)

  16. 针对问题(推荐的内容重复),如何通过数据分析进行证明。衡量指标怎么选择?

  17. 针对问题(推荐的内容重复),有什么改进的方法建议,推荐侧&产品侧。。(太产品了这个问题,我和运营打交道比较多)



富途

  1. 问项目(指标体系、用户分群之类的,只记得研究概率题,忘了其他。。)

  2. 公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋,请预测一下ta的性别。(我认为都是已知条件所以没用条件概率,后面用条件概率算发现答案也一样)

  3. A,B两个人打赌,让第三人C来抛硬币,C负责拿一个硬币不停地抛,A说“只要有先出现一次正面再出现一次反面的情况就算我赢”,B说“只要出现了连续的两次反面就算我赢”,然后C开始抛,只要没出现他们所说的任何一种情况就要继续抛,出现了任一个结果则停止,请计算A的胜率。(提示后答了3/4。答案参考

  4. 设计一个指标量化某只股票的舆情情况(已知每条咨询内容的舆情分)

  5. 富途还面了一个偏工程的岗,后面发现岗位不对口,不过面试官小姐姐很nice,讲清楚岗位不对口后两个人在唠嗑hhh互相了解对方数仓建设情况。。。


平安金融(三面的面试官和我说面试通过了很期待我加入,但还有第四面要和她的领导聊,给我打了预防针这个流程会很长。。。长到我听说平安在锁hc和裁员。。。长到我都入职其他公司了。。。也没通知第四面。。。面试题没怎么记,主要还是针对项目问)

  1. 指标体系搭建

  2. 用户分群的项目举例做了什么,模型是怎么落地和评估的

  3. 业务题:想从300亿收入提升至500亿 ,怎么做?

  4. 业务题:怎么对大客户做分析和运营?


顺丰-丰e足食

  1. 项目引申:指标建设-效果评估

    1. psm:怎么解决无法穷尽因子的问题,证明两个群体相似,达到类ABtest?

    2. 答用SMD做平衡性检验,除此还有什么办法?

  2. 业务题,某个时间点的销售提升率同比上年下降了,怎么做分析?(一步步引导你往下挖,直到你找到了原因)

  3. 怎么去衡量不同因子的影响权重?

  4. SQL题,就是处理以上业务题对应的表,怎么生成2个时间序列?


虾皮

(也面了两个部门,也有不对口的。。心累)

  1. 北极星指标设计等

  2. 举一个数据分析有落地的案例(来了又来了)

  3. 介绍一个做用户增长的案例(又。。)

  4. SQL题:怎么计算连续登陆三次失败后登陆成功的比例?login_table(dt, userid, flag, timestamp) ——窗口函数&left join (或者lag/lead)

  5. 看板题:设计地铁站的运营看板

  6. 业务分析题:怎么提升某个地铁站的用户满意度?(重点是要去收集数据做分析。)


oppo

(JD上的要求就是面试官的问题,而且两面问的问题差不多。面试有多简单,后面的hr流程就有多败好感了。。好多人都反馈被养鱼)

  1. 数据埋点怎么设计

  2. 异常的识别和归因,怎么高效识别异常,怎么做归因分析

  3. 数据指标体系建设案例介绍和理解

  4. xgb和lgbm的不同点

  5. ab实验的举例,最小样本考虑,效果可行度检验(还是介绍自己的项目)

  6. 举例数据分析对业务的影响

  7. 对数据分析师的理解


华润置地

(作为一家央企,和平安一样,流程长到离谱,前前后后花了2个月后走到等hr面,等了一个月了也不约我,最后也没走完。。。面试重视怎么开展工作,包括与业务的沟通等,二三面领导喜欢问业务题。ps这个岗位偏数据挖掘)
  1. 北极星指标怎么设计的?

  2. 画像标签落地介绍:从数据到应用的全流程

  3. 数据处理-存储-展示,个人认为的工作内容&认为重要的点

  4. 报表建设等,怎么和业务方沟通

  5. 上一份工的作介绍、承担角色,工作需求:做啥,谁发起,为什么做

  6. 分群项目的介绍,角色、工作内容

  7. 带来效益最大的一项工作(还是项目例子)

  8. 未来数分方向选择:业务?技术?

  9. 会用什么算法?分类算法有什么?(。。)

  10. 分析1: 12个一样的小球和一个天秤,只有一个球质量不一样,怎么找到?

  11. 分析2: 销售对新楼盘定价的合理性,怎么分析?

  12. 分析3:如果想提升网站访问量和转化率,怎么做?

  13. 为什么换工作?(二、三面都问了)

  14. 为什么考虑房地产

  15. 我的四面:只有7mins的面试。。。用我同事的话来说就是,领导露个脸,避免你以后遇见不认识不打招呼。。


还有一些公司,vivo、小红书、shein等等,emmm因为岗位都不是特别对口(比如偏数仓建设,比如让我手撕算法hhh),导致面完心里憋屈光顾着吐槽。。当时没记面经,现在已经不太记得了毕竟也不对口。。


最后,感谢下牛客网里一些大神总结的帖子:

  1. 智力题:https://www.nowcoder.com/discuss/807456

  2. 概率题:https://www.nowcoder.com/discuss/400248


最后最后,祝大家都能找到满意的工作啦~~世界这么大,生活这么多样,总有办法精彩活下去,加油咯!

#数分面经#
全部评论
这个问题我当时答得是2个方面评估,一个是通过找相似群体评估算法效果(类似于做ab实验),一个是对比非推荐进来的流量(如搜索、排行榜等)的消费情况。后面也查了下别人的方法,如图~
7 回复 分享
发布于 2022-07-22 09:48
感谢,很有帮助! “推荐效果指标不好,产品说推荐算法不准,没有把内容精准推给用户;算法说是内容质量问题,怎么评估这个问题?”请教一下大佬这个问题怎么分析呢?
1 回复 分享
发布于 2022-07-21 16:06
lz是社招吗
点赞 回复 分享
发布于 2022-09-29 23:24 上海
感谢大佬面经,求问大佬最后去了哪家呀?
点赞 回复 分享
发布于 2022-09-28 21:15 贵州
感谢分享!
点赞 回复 分享
发布于 2022-07-29 12:58
“针对问题(推荐的内容重复),如何通过数据分析进行证明。衡量指标怎么选择?” 请教大佬,这个问题该怎么分析呢🤗
点赞 回复 分享
发布于 2022-07-26 19:10

相关推荐

多模态模型横向对比除了 Video-LLaMA,还了解哪些主流多模态大模型?→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF:基于图像 - 文本对比学习,搭配动量蒸馏来优化图文对齐效果;BLIP:引入 captioner 生成高质量图文对,再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么?两阶段训练流程是怎样的?用到了哪些损失函数?→ 结构:在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1:冻结 ViT 和语言模型,只训练中间的 Q-Former→ Stage2:冻结语言模型,将 Q-Former 与 LM 连接,做指令微调→ 损失:ITC(图文对比损失)+ ITM(图文匹配损失)+ LM 生成损失微调方法(PEFT 全家桶)了解 PEFT 吗?再讲讲 LoRA,重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称,核心是只训练少量参数而不动原模型权重;LoRA 假设模型权重更新量 ΔW 具有低秩特性,将其分解为 A×B,只训练 A、B 两个低秩矩阵,既节省显存又能保留效果除了 LoRA,还有哪些 PEFT 方法?Prefix-tuning 和 P-tuning 有什么区别?→ 其他方法:Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning:在输入序列前加可学习的 prefix,作用于注意力的 K/V 矩阵,更适合 decoder-only 架构→ P-tuning:用小型网络(如 LSTM)生成连续的 soft prompt,解决离散 prompt 不稳定的问题,更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么?多模态特征是如何喂给大模型的?→ 示例流程:视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后,为什么还需要 RLHF?→ 指令微调只是让模型学会遵循指令,但输出可能更偏向 “模板化”;RLHF 是通过人类偏好对齐,让模型输出更符合人类价值观、更自然、更有用的回答,解决 “有用性” 和 “安全性” 问题了解 RLHF 吗?描述它的完整训练流程→ 三阶段流程:① SFT 微调:用高质量指令数据对预训练模型做监督微调,让模型学会基本指令遵循② 训练 Reward Model(RM):用人类标注的偏好数据训练奖励模型,学习给不同模型输出打分③ PPO 优化:用 RM 作为奖励信号,通过 PPO 算法更新策略模型,最大化 RM 给出的奖励,实现与人类偏好对齐手撕 LeetCode 原题:合并 k 个升序链表→ 核心思路:用小根堆维护 k 个链表的当前节点,每次弹出最小值节点并入结果链表,再将该节点的下一个节点入堆,直到所有链表遍历完毕;时间复杂度 O (N log k),N 为总节点数
查看9道真题和解析
点赞 评论 收藏
分享
评论
85
487
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务