字节大模型算法校招一面
1.拷打论文
2.拷打竞赛
3.对强化学习训练有什么了解吗?
4.你在做一个任务的时候,你怎么判断他在训练的时候要不要先经过5.SFT呢?然后再进行RL呢?
6.如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢
7.做RL时的pass@1和pass@k,你觉得这两个指标存在什么关系
8.讲一讲GRPO的原理,它的loss怎么写的
9.GRPO的优劣/后续改进
10.base地倾向?
11.手撕:编辑距离
2.拷打竞赛
3.对强化学习训练有什么了解吗?
4.你在做一个任务的时候,你怎么判断他在训练的时候要不要先经过5.SFT呢?然后再进行RL呢?
6.如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢
7.做RL时的pass@1和pass@k,你觉得这两个指标存在什么关系
8.讲一讲GRPO的原理,它的loss怎么写的
9.GRPO的优劣/后续改进
10.base地倾向?
11.手撕:编辑距离
全部评论
相关推荐
05-25 18:01
华南理工大学 算法工程师 点赞 评论 收藏
分享
程序员小白条:《备考软考软件设计师》中级很简单的,不需要花很多时间,除非考软高,这简历找找杭州本地中小厂吧,也很难,项目这块还是最好有自己开发的思考,不要网上的亮点搬过来就行,看运气,本地有优势 点赞 评论 收藏
分享
查看13道真题和解析