阿里暑期agent开发一面分享

给我面没招了,发点面经攒攒人品~
1.拷打自己的论文项目,会问很多细节的问题
2.八股如下:
1.RL训练中一般看什么参数
2.reward hacking是什么,一般在参数中怎么体现
3.PPO GRPO DPO 优势劣势 适用场景
4.DPO 需不需要加KL
5.rand7()怎么变成rand10() 拒绝采样
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务