蚂蚁金服校招算法二面55min

1、简单介绍中厂实习经历。
2、模型蒸馏的数据如何做的?如何清洗蒸馏得到的数据?
3、有没有使用强化学习做过数据仿真。这个之前看过一篇论文,刚好讲了一下。
4、有没有了解过训练推理一致性这个领域?我讲了一下强化学习领域的推训一致性,固定 flash attention 分块策略, vllm 推理框架固定 page attention 分块策略。
5、模型量化如何做的。 gptq , qat 等等,并说明为什么选择了w8a16的量化?
6、写一下 ppo 算法的损失函数和 GAE 优势函数。主要还是讲明白
7、 grpo 算法中 kl 散度和之前的方法有什么区别?在 dapo 中为何舍弃了 kl 散度?
8、模型蒸馏主要的两种方式。硬标签和软标签。
9、介绍一下 kmeans 算法,如何设置合适的 k 值。如果在一个非常大的数据量中,如何实时增量更新,并动态管理 k 值。
10、一个场景题
11、手撕题hot100,中等题,合并 k 个升序链表。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务