字节实习 大模型应用开发一面 90min

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.了解DeepSeek-R1吗?介绍一下?
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
10.deepspeed的三个阶段。
全部评论
是哪个部门儿
点赞 回复 分享
发布于 今天 00:32 广东
这感觉更像算法岗
点赞 回复 分享
发布于 昨天 18:49 湖北

相关推荐

03-08 16:30
门头沟学院 Java
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务