AI infra实习面经(小厂

1.详细说明大模型rl全流程,涉及到哪些模型,ppo/grpo有什么区别;
2.rl里rollout耗时占比大概百分之多少,policy mfu大概多少,mfu计算公式,6Nd公式是什么;
3.rl里rollout有哪些优化点(rollout量化 异步rollout等);
4.介绍rl中如何把预训练权重同步到推理引擎;
5.Megatron,tp是怎么切分的,mlp中第一个矩阵和第二个矩阵分别是行切还是列切,通信分别是什么算子;
6.预训练和sft loss、数据集有什么区别;
7.预训练优化,介绍流水线并行,说明一下1f1b,dualpipe;
8.说一下DeepSeek论文里觉得印象深刻的点(fp8训练);
9.介绍一下vllm/sglang里的continuous batching;
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务