27实习阿里国际 大模型算法一面 好难啊
攒攒人品!有面试过同岗的朋友欢迎评论区交流
1- 问项目
2-为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4-八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7-重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的k|散度和ppo的kI散度是一模一样的吗
9- ppo grpo Fon-policytEoff-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code: x 的平方根
1- 问项目
2-为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4-八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7-重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的k|散度和ppo的kI散度是一模一样的吗
9- ppo grpo Fon-policytEoff-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code: x 的平方根
全部评论

感觉确实比较难啊
相关推荐
牛客92772631...:28届都要抢了嘛
查看24道真题和解析 点赞 评论 收藏
分享
点赞 评论 收藏
分享
04-17 09:29
门头沟学院 Java
一超多强1:父母觉得现在的就业还跟他们那时候一样 点赞 评论 收藏
分享
04-23 13:46
西北大学 Java 点赞 评论 收藏
分享