Shopee大模型算法一面 (已过

攒人品中!
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
全部评论
佬 我司投递没 没投递的话可以看我主页帖子
点赞 回复 分享
发布于 04-07 21:39 上海

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务