字节实习 大模型应用开发一面 90min
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.了解DeepSeek-R1吗?介绍一下?
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
10.deepspeed的三个阶段。
1.了解DeepSeek-R1吗?介绍一下?
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
10.deepspeed的三个阶段。
全部评论
是哪个部门儿
这感觉更像算法岗
相关推荐
03-09 20:41
江西农业大学 后端工程师 dejavu06:本人也在学习,这是我个人总结的一些经验,我资质平平,不懂什么底层,只是把会的分享出来,希望大家轻点喷
点赞 评论 收藏
分享

