字节大模型-日常实习 一面
给我面没招了,发点面经攒攒人品~
实习拷打
1.奖励函数为什么这样设计
2.为什么要做grpo,纯sft不行吗
3.如何判断grpo对项目有收益,然后追问,怎么评估一个项目需不需要做强化学习
4.grpo如何判断模型已经收敛
5.这个项目评测的标准是什么,会人为审核吗,还是模型评测
6.手撕:hot100常见题,编辑距离
实习拷打
1.奖励函数为什么这样设计
2.为什么要做grpo,纯sft不行吗
3.如何判断grpo对项目有收益,然后追问,怎么评估一个项目需不需要做强化学习
4.grpo如何判断模型已经收敛
5.这个项目评测的标准是什么,会人为审核吗,还是模型评测
6.手撕:hot100常见题,编辑距离
全部评论
相关推荐
查看9道真题和解析