美团大模型岗面试强度,已老实
面试公司:美团
岗位:大模型应用开发一面
1.自我介绍+做过的项目,项目问的很细2.了解 Deepseek -R1吗?介绍一下。3.R1的 MLA 是如何实现 KV - Cache 的节约?
4.R1在 SFT 时冷启动的目的?
5.位置编码是什么?解释 ROPE
6.一个14B的模型,推理和训练要多少显存?
7.显存的占用和哪些因素相关?
8.大模型灾难性遗忘是什么?如何解决?
9.BF16、FP16、FP32对比
10.Adam, AdamW 原理
11.deepspeed的三个阶段
手撕:
合并两个有序链表
岗位:大模型应用开发一面
1.自我介绍+做过的项目,项目问的很细2.了解 Deepseek -R1吗?介绍一下。3.R1的 MLA 是如何实现 KV - Cache 的节约?
4.R1在 SFT 时冷启动的目的?
5.位置编码是什么?解释 ROPE
6.一个14B的模型,推理和训练要多少显存?
7.显存的占用和哪些因素相关?
8.大模型灾难性遗忘是什么?如何解决?
9.BF16、FP16、FP32对比
10.Adam, AdamW 原理
11.deepspeed的三个阶段
手撕:
合并两个有序链表
全部评论
😭借楼招大模型算法实习同学,jd:北京文心一言(自然语言处理部),根据业务需求思考数据构建策略,构建SFT、DPO、check_list数据,多机多卡训练SFT、DPO、RL,愿意思考如何从数据角度优化模型效果。 实习3个月以上,一周出勤4天。
想问一下说项目问的很细,到底是有多细
耐面王
相关推荐
06-27 23:57
许昌学院 算法工程师 点赞 评论 收藏
分享