字节大模型算法校招一面

1.拷打论文
2.拷打竞赛
3.对强化学习训练有什么了解吗?
4.你在做一个任务的时候,你怎么判断他在训练的时候要不要先经过5.SFT呢?然后再进行RL呢?
6.如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢
7.做RL时的pass@1和pass@k,你觉得这两个指标存在什么关系
8.讲一讲GRPO的原理,它的loss怎么写的
9.GRPO的优劣/后续改进
10.base地倾向?
11.手撕:编辑距离
全部评论

相关推荐

05-19 19:54
已编辑
杭州电子科技大学 Java
程序员小白条:《备考软考软件设计师》中级很简单的,不需要花很多时间,除非考软高,这简历找找杭州本地中小厂吧,也很难,项目这块还是最好有自己开发的思考,不要网上的亮点搬过来就行,看运气,本地有优势
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务