荣耀算法实习 技术面经

感觉自己好菜、面试很难,还是要多多练习
1.项目介绍
2.手机助手项目背景,奖励是怎么分配到每一步的?数据量大小?长短链路比例?正负样本数据量?
3.R1复现数据分布?你怎么确定你的方案是有效的?采用的什么框架?GRPO相对于PPO有什么缺点?PPO到GRPO的思路?
4.为什么现在在实习还会投实习?
5.看过R1的文章是吧,讲一下他们是做了多少论训练。
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务