Shopee大模型算法一面 (已过
攒人品中!
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
全部评论
佬 我司投递没 没投递的话可以看我主页帖子
相关推荐
点赞 评论 收藏
分享
牛客12021172...:想放弃你,但又有点可惜,说白了横向的人太多了,再比较一轮 点赞 评论 收藏
分享
查看8道真题和解析 点赞 评论 收藏
分享