Shopee大模型算法一面 (已过
攒人品中!
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
相关推荐
查看9道真题和解析