字节大模型校招算法一面

1.项目介绍,问实习和论文
2.大模型的超长上下文问题怎么解决预训练和 SFT 的损失一样吗
3.RL 中 Reward 和优势有什么区别
4. LoRA 训练和全参训练的优劣
5.了解哪些常用的 RL 算法
6.最新的 GSPO 重要性采样
7.讲一下 DeepSeek R1,推理模型怎样训练
8.GRPO 比 PPO 强在哪
9.对 DAPO 和 VAPO 有了解吗
10.代码:接雨水
全部评论

相关推荐

代码飞升_不回私信人...:别这样贬低自己,降低预期,放平心态,跟昨天的自己比。做好自己,反而会效率更高心态更好,加油兄弟
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务