27美团实习大模型算法面经45min
大模型八股
1.DeepSeek R1有看过吗?介绍一下
2.R1的 MLA是如何节约 KV cache的?
3.R1的 sft阶段为什么要先做一个冷启动?
4.位置编码是什么,怎么实现的?
5.算一下一个7B的模型推理需要多少显存,训练呢?
6.显存占用和哪些因素有关?
7.遇到过灾难性遗忘吗?怎么缓解的
8.训练用的什么精度,BF16和FP16有什么区别
9.优化算法知道哪些?讲-下AdamW
10.deepspeed的offload是怎么做的?
coding:
合并两个有序链表
1.DeepSeek R1有看过吗?介绍一下
2.R1的 MLA是如何节约 KV cache的?
3.R1的 sft阶段为什么要先做一个冷启动?
4.位置编码是什么,怎么实现的?
5.算一下一个7B的模型推理需要多少显存,训练呢?
6.显存占用和哪些因素有关?
7.遇到过灾难性遗忘吗?怎么缓解的
8.训练用的什么精度,BF16和FP16有什么区别
9.优化算法知道哪些?讲-下AdamW
10.deepspeed的offload是怎么做的?
coding:
合并两个有序链表
全部评论
相关推荐
11-24 23:12
四川大学 算法工程师 点赞 评论 收藏
分享
昨天 19:53
湖南大学 Java 点赞 评论 收藏
分享
查看7道真题和解析