快手大模型推荐算法一面分享
继续来分享下最近的面经~
1.正负样本在你的场景下怎么理解 sft数据如何评估的
2.如何评估回答质量
3.实习拷打
4.react介绍一下 为什么用react?
5.奖励函数设计逻辑和打分规则
6.grpo有没有改进过 全0全1 reward遇到过吗?
手撕:二分查找第一个和最后一个位置
1.正负样本在你的场景下怎么理解 sft数据如何评估的
2.如何评估回答质量
3.实习拷打
4.react介绍一下 为什么用react?
5.奖励函数设计逻辑和打分规则
6.grpo有没有改进过 全0全1 reward遇到过吗?
手撕:二分查找第一个和最后一个位置
全部评论
相关推荐
查看9道真题和解析 点赞 评论 收藏
分享
查看14道真题和解析 点赞 评论 收藏
分享
