快手大模型推荐算法一面分享
继续来分享下最近的面经~
1.正负样本在你的场景下怎么理解 sft数据如何评估的
2.如何评估回答质量
3.实习拷打
4.react介绍一下 为什么用react?
5.奖励函数设计逻辑和打分规则
6.grpo有没有改进过 全0全1 reward遇到过吗?
手撕:二分查找第一个和最后一个位置
1.正负样本在你的场景下怎么理解 sft数据如何评估的
2.如何评估回答质量
3.实习拷打
4.react介绍一下 为什么用react?
5.奖励函数设计逻辑和打分规则
6.grpo有没有改进过 全0全1 reward遇到过吗?
手撕:二分查找第一个和最后一个位置
全部评论
相关推荐
点赞 评论 收藏
分享
05-12 21:56
长春理工大学 Java 点赞 评论 收藏
分享

查看13道真题和解析