字节实习 大模型应用开发一面 90min
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.了解DeepSeek-R1吗?介绍一下?
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
10.deepspeed的三个阶段。
1.了解DeepSeek-R1吗?介绍一下?
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
10.deepspeed的三个阶段。
全部评论
是哪个部门儿
这感觉更像算法岗
相关推荐
昨天 18:01
西北工业大学 C++ 点赞 评论 收藏
分享
