快手大模型推荐算法一面分享

继续来分享下最近的面经~
1.正负样本在你的场景下怎么理解 sft数据如何评估的
2.如何评估回答质量
3.实习拷打
4.react介绍一下 为什么用react?
5.奖励函数设计逻辑和打分规则
6.grpo有没有改进过 全0全1 reward遇到过吗?

手撕:二分查找第一个和最后一个位置
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务