字节大模型-日常实习 一面

给我面没招了,发点面经攒攒人品~
实习拷打
1.奖励函数为什么这样设计
2.为什么要做grpo,纯sft不行吗
3.如何判断grpo对项目有收益,然后追问,怎么评估一个项目需不需要做强化学习
4.grpo如何判断模型已经收敛
5.这个项目评测的标准是什么,会人为审核吗,还是模型评测
6.手撕:hot100常见题,编辑距离
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务