字节大模型算法校招一面

1.拷打论文
2.拷打竞赛
3.对强化学习训练有什么了解吗?
4.你在做一个任务的时候,你怎么判断他在训练的时候要不要先经过5.SFT呢?然后再进行RL呢?
6.如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢
7.做RL时的pass@1和pass@k,你觉得这两个指标存在什么关系
8.讲一讲GRPO的原理,它的loss怎么写的
9.GRPO的优劣/后续改进
10.base地倾向?
11.手撕:编辑距离
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务