MiniMax 大模型开发 一面
1. 介绍一下你的实习、项目和论文,重点讲一个你真正做深了的点
2. 介绍一个你最熟悉的大模型架构,并说清楚它在注意力结构、训练策略和推理优化上的特点
可以拿 Transformer 系列来答。核心由 Embedding、Multi-Head Attention、FFN、残差连接和 LayerNorm 组成。注意力结构负责建模 token 间依赖,训练上一般采用大规模自监督预训练,比如 next token prediction,然后再做 SFT、偏好对齐。推理优化上会做 KV Cache、FlashAttention、Continuous Batching、量化和张量并行。
如果你想答得更像大模型岗,可以顺手补一句:现在很多模型会在 Transformer 基础上做 RoPE、GQA/MQA、MoE、长上下文扩展等改造,本质上都是在平衡效果、训练成本和推理效率。
3. Transformer 里的注意力机制为什么有效?Self-Attention 的时间复杂度和显存瓶颈主要来自哪里
注意力机制有效,是因为它能直接建模任意两个 token 之间的关系,不像 RNN 那样依赖逐步传播,也不像 CNN 那样受固定感受野限制。它能更灵活地捕捉长距离依赖,所以在语言建模上效果很好。
Self-Attention 的时间复杂度主要来自注意力矩阵计算,序列长度是 n 时,QK^T 的复杂度是 (O(n^2 d)),注意力权重矩阵本身是 (n \times n),所以显存瓶颈也很明显。序列越长,这一块越贵,这也是长上下文场景里为什么大家都在研究稀疏注意力、FlashAttention 和状态压缩。
4. 你了解哪些主流大模型架构演进路线?为什么很多模型会从纯 Dense 逐步走向 MoE
主流路线大致可以理解成:早期是标准 Dense Transformer,后面开始做更大参数、更长上下文、更高训练效率,于是出现了 MoE、GQA、Linear Attention、Hybrid Attention 等优化路线。
很多模型走向 MoE,是因为 Dense 模型参数全激活,参数量一大,训练和推理成本都会线性上升。MoE 的思路是“总参数很大,但每次只激活少数专家”,这样可以在不显著增加单 token 计算量的情况下扩大模型容量,所以从 scaling 的角度更划算。
5. 为什么 MoE 能在参数规模继续扩大的情况下保持更高的训练效率
因为 MoE 是稀疏激活。传统 Dense 模型每层参数都要参与前向和反向,而 MoE 只会让路由器选中 Top-K 个专家参与计算。也就是说,总参数规模可以非常大,但单个 token 实际只经过少数几个专家,所以单步 FLOPs 不会像 Dense 一样跟总参数一起暴涨。
本质上它提升的是“参数容量”和“计算开销”的解耦能力。你可以理解为,模型拥有更大的知识存储空间,但每次只调一部分专家出来工作。
6. MoE 的路由机制是怎么工作的?Top-K Routing、负载均衡损失、capacity factor 分别起什么作用
MoE 里通常会有一个 router,根据 token 的隐状态为各个专家打分,然后选 Top-K 个专家,把 token 分发过去。Top-K Routing 决定一个 token 走几个专家,K 越大表达能力更强,但计算也更贵。
负载均衡损失的作用是防止所有 token 都扎堆到少数专家上,否则有些专家会过载,有些专家根本学不到东西。capacity factor 是每个专家允许接收 token 数量的容量系数,太小容易丢 token,太大又会造成效率下降,所以它本质上是在平衡利用率和系统稳定性。
7. 如果 MoE 出现专家负载不均、部分专家几乎不被激活,你会怎么分析和优化
先看 router 的分数分布是不是过于尖锐,如果过早塌缩到少数专家,就说明路由学习不健康。再看辅助负载均衡损失是否过弱,capacity 设置是否不合理,训练初期学习率是否过大,导致 router 很快固化。
优化上常见方法有:调大 load balance loss、在路由打分里加噪声、调节 capacity factor、限制过热专家、提高专家间分配均匀性,或者在训练初期做更平滑的路由。还有一种思路是看数据分布是否太偏,某些模式过于集中,也会导致专家长期偏置。
8. SFT、RM、RLHF、DPO 分别解决什么问题?它们在训练目标上有什么本质区别
SFT 是监督微调,目标是让模型学会按指令格式输出,解决“会不会答”的问题。RM 是奖励模型,目标是学会根据人类偏好给答案打分。RLHF 是拿奖励模型来优化策略模型,目标是让模型更符合人类偏好。DPO 是不用显式训练 RL 策略,而是直接在偏好数据上做对比优化。
本质区别在于:SFT 学的是“模仿标注答案”,RM 学的是“偏好打分”,RLHF 学的是“在奖励约束下优化生成策略”,DPO 学的是“直接利用 chosen/rejected 样本优化偏好排序”。
9. 为什么很多模型做完 SFT 之后还要继续做 RLHF 或 DPO,对齐到底在补什么能力
因为 SFT 只能学到“像标注数据一样回答”,但不一定学会“什么回答更符合人类偏好”。比如两个答案事实都对,一个更礼貌、更安全、更简洁、更稳妥,SFT 不一定能稳定学到这种偏好顺序。
所以对齐阶段补的是偏好建模能力、安全性、拒答边界、帮助性和无害性。换句话说,SFT 解决的是基础可用,RLHF/DPO 解决的是更像一个线上可交付产品。
10. PPO 在 R
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

查看12道真题和解析