27美团实习大模型算法面经45min

大模型八股
1.DeepSeek R1有看过吗?介绍一下
2.R1的 MLA是如何节约 KV cache的?
3.R1的 sft阶段为什么要先做一个冷启动?
4.位置编码是什么,怎么实现的?
5.算一下一个7B的模型推理需要多少显存,训练呢?
6.显存占用和哪些因素有关?
7.遇到过灾难性遗忘吗?怎么缓解的
8.训练用的什么精度,BF16和FP16有什么区别
9.优化算法知道哪些?讲-下AdamW
10.deepspeed的offload是怎么做的?

coding:
合并两个有序链表
全部评论

相关推荐

投递菜鸟集团等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务