字节大模型应用开发 日常实习一面

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.项目拷打
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
全部评论

相关推荐

03-17 23:54
黑龙江大学 Java
来个白菜也好啊qaq:可以的,大厂有的缺打手
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务