阿里国际 大模型算法一面分享 1h
压力拉满,考得比较深
1- 问项目
2- 为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4- 八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7- 重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的kl散度和ppo的kl散度是一模一样的吗
9- ppo grpo 是on-policy还是off-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code:x 的平方根(只保留整数部分)
1- 问项目
2- 为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4- 八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7- 重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的kl散度和ppo的kl散度是一模一样的吗
9- ppo grpo 是on-policy还是off-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code:x 的平方根(只保留整数部分)
全部评论

可以的,写的很好呢
相关推荐
点赞 评论 收藏
分享

查看16道真题和解析