荣耀算法实习 技术面经
感觉自己好菜、面试很难,还是要多多练习
1.项目介绍
2.手机助手项目背景,奖励是怎么分配到每一步的?数据量大小?长短链路比例?正负样本数据量?
3.R1复现数据分布?你怎么确定你的方案是有效的?采用的什么框架?GRPO相对于PPO有什么缺点?PPO到GRPO的思路?
4.为什么现在在实习还会投实习?
5.看过R1的文章是吧,讲一下他们是做了多少论训练。
1.项目介绍
2.手机助手项目背景,奖励是怎么分配到每一步的?数据量大小?长短链路比例?正负样本数据量?
3.R1复现数据分布?你怎么确定你的方案是有效的?采用的什么框架?GRPO相对于PPO有什么缺点?PPO到GRPO的思路?
4.为什么现在在实习还会投实习?
5.看过R1的文章是吧,讲一下他们是做了多少论训练。
全部评论
相关推荐
昨天 19:25
门头沟学院 Java 点赞 评论 收藏
分享