字节大模型-日常实习 一面
给我面没招了,发点面经攒攒人品~
实习拷打
1.奖励函数为什么这样设计
2.为什么要做grpo,纯sft不行吗
3.如何判断grpo对项目有收益,然后追问,怎么评估一个项目需不需要做强化学习
4.grpo如何判断模型已经收敛
5.这个项目评测的标准是什么,会人为审核吗,还是模型评测
6.手撕:hot100常见题,编辑距离
实习拷打
1.奖励函数为什么这样设计
2.为什么要做grpo,纯sft不行吗
3.如何判断grpo对项目有收益,然后追问,怎么评估一个项目需不需要做强化学习
4.grpo如何判断模型已经收敛
5.这个项目评测的标准是什么,会人为审核吗,还是模型评测
6.手撕:hot100常见题,编辑距离
全部评论
相关推荐
昨天 23:11
南开大学 Java 牛客91882925...:慢慢来,别给自己那么大压力,天无绝人之路。学习中成长,这背景已经超越绝大多数牛友了。多面几次就好了,我第一次面试前睡都睡不好,不过面试官人还好,进行一会面试就注意力全在题上了。所以跟面试官关系也很大
点赞 评论 收藏
分享