字节大模型算法校招一面
1.拷打论文
2.拷打竞赛
3.对强化学习训练有什么了解吗?
4.你在做一个任务的时候,你怎么判断他在训练的时候要不要先经过5.SFT呢?然后再进行RL呢?
6.如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢
7.做RL时的pass@1和pass@k,你觉得这两个指标存在什么关系
8.讲一讲GRPO的原理,它的loss怎么写的
9.GRPO的优劣/后续改进
10.base地倾向?
11.手撕:编辑距离
2.拷打竞赛
3.对强化学习训练有什么了解吗?
4.你在做一个任务的时候,你怎么判断他在训练的时候要不要先经过5.SFT呢?然后再进行RL呢?
6.如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢
7.做RL时的pass@1和pass@k,你觉得这两个指标存在什么关系
8.讲一讲GRPO的原理,它的loss怎么写的
9.GRPO的优劣/后续改进
10.base地倾向?
11.手撕:编辑距离
全部评论
相关推荐
查看16道真题和解析 点赞 评论 收藏
分享