小米Agent算法校招一面

1、详细介绍项目
2、SFT数据来源,是否包含人工标注?数据质量如何保证?输入输出格式?
3、为什么选择GRPO而不是PPO/DPO?介绍一下PPO和DPO
4、GRPO的不足之处,后续改进的工作介绍一下(介绍了DAPO、GSPO)
5、GRPO阶段数据比例如何设计,与SFT阶段数据的区别?
6、Reward是如何设计的?
7、强化学习在Agent中的挑战
8、了不了解MIMO
反问
全部评论

相关推荐

评论
2
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务