蚂蚁金服算法26校招一面

1、介绍自己的中厂实习,从业务背景,困难,解决方法,自己的产出四个维度阐述。
2、 ppo 和 dpo 区别和原理(因为实习做的就是 rl 相关)
3、是不是用的 Verl 框架做的 rl ?详细讲一下 verl 框架的训练流程。并讲一下配置文件中 rollout _ batchsize , global _ batch _ size , micro _ batch _ size _ per _ device _ for _ update , rollout . n 等等参数的关系,以及他们如何影响最终更新时每张显卡上的样本数。
4、reward function 如何设计的为什么这么设计?
5、critic model 作用是什么?为什么有了 reward model 还需要 critic model ?
6、有没有了解最近的 rl 方法?过了一遍 grpo , dapo , gspo 过了的主要改进点
7、计算机基础八股: B 树和 B 一树的区别。如果 CPU 突然被打满了,如何排查?什么情况下会出现锁,如何解决。
8、核心代码模式,写一下大模型预测
token 时, beam 树如何构建,如何得到最终的结果( pytorch 简单实现了一下,主要是还是讲明白)
9、手撕hot100,中等题,最小生成树。
全部评论

相关推荐

11-04 19:05
已编辑
东莞城市学院 单片机
不知道怎么取名字_:你这个要实习两年?哪有这么久的,感觉就是即使你毕业了,但还按实习的话,是不是不用给你缴社保公积金啥的
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务