阿里国际大模型算法一面分享

发一下问题给大家参考,攒攒人品!
1- 问项目
2-为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4-八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7-重要性采样,为什么需要。如果一次新策略和旧日策略差别很大,那重要性采样还有用吗
8-grpo的K|散度和ppo的kl散度是一模一样的吗
9- ppo grpo Fon-policytEoff-policy
10- ppo中advantages是怎么得到的?
11-信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12-Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code: x 的平方根
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务