快手大模型推荐算法一面分享

继续来分享下最近的面经~
1.正负样本在你的场景下怎么理解 sft数据如何评估的
2.如何评估回答质量
3.实习拷打
4.react介绍一下 为什么用react?
5.奖励函数设计逻辑和打分规则
6.grpo有没有改进过 全0全1 reward遇到过吗?

手撕:二分查找第一个和最后一个位置
全部评论

相关推荐

明日Star:第一个项目修一修,点不用多3-4个,描述就是优化+指标量化。第二个项目换一下吧,换个agent
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务