美团大模型算法校招一面

1.MOE 原理,讲一下负载均衡以及有哪几种类型? 你能写一下公式吗?
2.MOE 的 expert parallel 如何做的? 你用了 swift 参数怎么设置的,有 2 个 node 你如何分配你的训练参数?
3.做 grpo 遇到熵崩没有?你是怎么理解的?如何解决的(clip higher 限制、小学习率)
4.大模型容易 reward hacking,如何解决?你说训一个小模型,那小模型数据如何来?还有什么办法吗?
5.VLLM prefix cache实现过吗? 讲一下你的理解
6.在训练 grpo 时候应该更新rollout 的 mllm 吗?(ref model)
7.手撕: transformers encoder
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务