阿里暑期agent开发一面分享
给我面没招了,发点面经攒攒人品~
1.拷打自己的论文项目,会问很多细节的问题
2.八股如下:
1.RL训练中一般看什么参数
2.reward hacking是什么,一般在参数中怎么体现
3.PPO GRPO DPO 优势劣势 适用场景
4.DPO 需不需要加KL
5.rand7()怎么变成rand10() 拒绝采样
1.拷打自己的论文项目,会问很多细节的问题
2.八股如下:
1.RL训练中一般看什么参数
2.reward hacking是什么,一般在参数中怎么体现
3.PPO GRPO DPO 优势劣势 适用场景
4.DPO 需不需要加KL
5.rand7()怎么变成rand10() 拒绝采样
全部评论
相关推荐
查看13道真题和解析 点赞 评论 收藏
分享
05-07 01:57
门头沟学院 Java
牛客54548888...:选择大于努力。。。双非就选广工,重邮,南邮,深大,杭电,桂电,西南石油这些就行了,否则远不如去末二。别的很多双非甚至不如大学结尾的放实习的二本。一本,二本,学院本都叫自己双非,事实上在HR眼里也确实没区别 点赞 评论 收藏
分享
点赞 评论 收藏
分享