字节27暑期 大模型算法一面凉经分享
攒人品中,祝大家都能拿到满意的Offer!
1.项目拷打
2.GRPO 在Agentic RL的场景下 如何设计针对过程打分
3.针对Agent行为打分,在反向传播的时候,具体到token分数是怎么计算的
4.GRPO中roll out过程的长尾问题,导致GPU使用率低,有什么工程上的解决方案
5.GRPO的GAE是怎么计算的
6.GRPO为什么要在CLIP之后做min
7.DAPO相较于GRPO的CLIP有什么区别
8.GRPO更新公式逐token更新和DAPO的Batch内更新有什么区别,为什么DAP要按照Batch设计
9.GRPO在训练moe模型时候,出现rollout和训练的专家路由不一样的原因是什么,这个问题的解决方案有什么
10.GSPO 具体采取了什么方案缓解这个问题
代码题
二叉搜索树的数量
一道概率题用python写
1.项目拷打
2.GRPO 在Agentic RL的场景下 如何设计针对过程打分
3.针对Agent行为打分,在反向传播的时候,具体到token分数是怎么计算的
4.GRPO中roll out过程的长尾问题,导致GPU使用率低,有什么工程上的解决方案
5.GRPO的GAE是怎么计算的
6.GRPO为什么要在CLIP之后做min
7.DAPO相较于GRPO的CLIP有什么区别
8.GRPO更新公式逐token更新和DAPO的Batch内更新有什么区别,为什么DAP要按照Batch设计
9.GRPO在训练moe模型时候,出现rollout和训练的专家路由不一样的原因是什么,这个问题的解决方案有什么
10.GSPO 具体采取了什么方案缓解这个问题
代码题
二叉搜索树的数量
一道概率题用python写
全部评论
相关推荐
03-26 11:13
河南大学 测试工程师 点赞 评论 收藏
分享
