昨天 14:12 已编辑吉林农业大学算法工程师发布于河北

关注

MiniMax 大模型开发一面

1. 介绍一下你的实习、项目和论文，重点讲一个你真正做深了的点

2. 介绍一个你最熟悉的大模型架构，并说清楚它在注意力结构、训练策略和推理优化上的特点

可以拿 Transformer 系列来答。核心由 Embedding、Multi-Head Attention、FFN、残差连接和 LayerNorm 组成。注意力结构负责建模 token 间依赖，训练上一般采用大规模自监督预训练，比如 next token prediction，然后再做 SFT、偏好对齐。推理优化上会做 KV Cache、FlashAttention、Continuous Batching、量化和张量并行。

如果你想答得更像大模型岗，可以顺手补一句：现在很多模型会在 Transformer 基础上做 RoPE、GQA/MQA、MoE、长上下文扩展等改造，本质上都是在平衡效果、训练成本和推理效率。

3. Transformer 里的注意力机制为什么有效？Self-Attention 的时间复杂度和显存瓶颈主要来自哪里

注意力机制有效，是因为它能直接建模任意两个 token 之间的关系，不像 RNN 那样依赖逐步传播，也不像 CNN 那样受固定感受野限制。它能更灵活地捕捉长距离依赖，所以在语言建模上效果很好。

Self-Attention 的时间复杂度主要来自注意力矩阵计算，序列长度是 n 时，QK^T 的复杂度是 (O(n^2 d))，注意力权重矩阵本身是 (n \times n)，所以显存瓶颈也很明显。序列越长，这一块越贵，这也是长上下文场景里为什么大家都在研究稀疏注意力、FlashAttention 和状态压缩。

4. 你了解哪些主流大模型架构演进路线？为什么很多模型会从纯 Dense 逐步走向 MoE

主流路线大致可以理解成：早期是标准 Dense Transformer，后面开始做更大参数、更长上下文、更高训练效率，于是出现了 MoE、GQA、Linear Attention、Hybrid Attention 等优化路线。

很多模型走向 MoE，是因为 Dense 模型参数全激活，参数量一大，训练和推理成本都会线性上升。MoE 的思路是“总参数很大，但每次只激活少数专家”，这样可以在不显著增加单 token 计算量的情况下扩大模型容量，所以从 scaling 的角度更划算。

5. 为什么 MoE 能在参数规模继续扩大的情况下保持更高的训练效率

因为 MoE 是稀疏激活。传统 Dense 模型每层参数都要参与前向和反向，而 MoE 只会让路由器选中 Top-K 个专家参与计算。也就是说，总参数规模可以非常大，但单个 token 实际只经过少数几个专家，所以单步 FLOPs 不会像 Dense 一样跟总参数一起暴涨。

本质上它提升的是“参数容量”和“计算开销”的解耦能力。你可以理解为，模型拥有更大的知识存储空间，但每次只调一部分专家出来工作。

6. MoE 的路由机制是怎么工作的？Top-K Routing、负载均衡损失、capacity factor 分别起什么作用

MoE 里通常会有一个 router，根据 token 的隐状态为各个专家打分，然后选 Top-K 个专家，把 token 分发过去。Top-K Routing 决定一个 token 走几个专家，K 越大表达能力更强，但计算也更贵。

负载均衡损失的作用是防止所有 token 都扎堆到少数专家上，否则有些专家会过载，有些专家根本学不到东西。capacity factor 是每个专家允许接收 token 数量的容量系数，太小容易丢 token，太大又会造成效率下降，所以它本质上是在平衡利用率和系统稳定性。

7. 如果 MoE 出现专家负载不均、部分专家几乎不被激活，你会怎么分析和优化

先看 router 的分数分布是不是过于尖锐，如果过早塌缩到少数专家，就说明路由学习不健康。再看辅助负载均衡损失是否过弱，capacity 设置是否不合理，训练初期学习率是否过大，导致 router 很快固化。

优化上常见方法有：调大 load balance loss、在路由打分里加噪声、调节 capacity factor、限制过热专家、提高专家间分配均匀性，或者在训练初期做更平滑的路由。还有一种思路是看数据分布是否太偏，某些模式过于集中，也会导致专家长期偏置。

8. SFT、RM、RLHF、DPO 分别解决什么问题？它们在训练目标上有什么本质区别

SFT 是监督微调，目标是让模型学会按指令格式输出，解决“会不会答”的问题。RM 是奖励模型，目标是学会根据人类偏好给答案打分。RLHF 是拿奖励模型来优化策略模型，目标是让模型更符合人类偏好。DPO 是不用显式训练 RL 策略，而是直接在偏好数据上做对比优化。

本质区别在于：SFT 学的是“模仿标注答案”，RM 学的是“偏好打分”，RLHF 学的是“在奖励约束下优化生成策略”，DPO 学的是“直接利用 chosen/rejected 样本优化偏好排序”。

9. 为什么很多模型做完 SFT 之后还要继续做 RLHF 或 DPO，对齐到底在补什么能力

因为 SFT 只能学到“像标注数据一样回答”，但不一定学会“什么回答更符合人类偏好”。比如两个答案事实都对，一个更礼貌、更安全、更简洁、更稳妥，SFT 不一定能稳定学到这种偏好顺序。

所以对齐阶段补的是偏好建模能力、安全性、拒答边界、帮助性和无害性。换句话说，SFT 解决的是基础可用，RLHF/DPO 解决的是更像一个线上可交付产品。

10. PPO 在 R

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

中国地质大学（武汉） Java

点赞回复分享

发布于昨天 21:43 湖北

03-25 15:35

百度_测试开发实习生(实习员工)

无法理解怎么美团一面就挂了呢

325收到另一个地点部门的面试邀约，很奇怪，难道324面的就挂了吗，怎么也不给感谢信，也没通知，就让一直面吗

点赞评论收藏

分享

昨天 23:19

北京工业大学 Web前端

一文讲明白前端项目中的各种懒加载（不止路由和图片）

在前端性能优化中，懒加载几乎是必考概念。但很多人一提懒加载，只能说出两句话：路由懒加载用 import()图片懒加载用 IntersectionObserver这在真实项目和面试中，远远不够。这篇文章从加载对象、作用层级、真实业务动机三个维度，系统讲清楚——前端里到底有哪些懒加载，以及它们各自解决什么问题。什么是懒加载？一句话定义：懒加载 = 把“现在不需要的东西”，从初始化阶段推迟到真正需要时再加载。本质目标只有三个减少首屏资源体积降低初始化 JS 执行压力提升关键性能指标（FCP / LCP / TTI）前端懒加载的完整分类总览可以按 懒什么 来分类：分类懒加载对象路由级懒加载页面模块组件...

前端面试准备&技...

点赞评论收藏

分享

昨天 04:50

门头沟学院推荐算法

minimax大模型算法一面好难啊感觉

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.介绍实习和论文2.介绍你熟悉的大模型架构追问：两者在注意力结构、训练策略和推理优化上的主要差异。3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率？4.MoE 的路由机制是怎么工作的？为什么会出现专家负载不均的问题？5.如果专家利用率很低，你会怎么优化路由策略？6.SFT 和 RLHF 在训练目标上有什么本质区别？为什么很多模型在 SFT 后仍然需要 RLHF？7.RLHF 中 PPO 的核心优化目标是什么？写出 PPO 的目标函数，并解释每一项的意义。8.手撕：实现 K 个有序数组的中位数

查看12道真题和解析

点赞评论收藏

分享

03-25 14:07

桂林电子科技大学数据分析师

【爬虫JS逆向实战】某排排网数据解密逆向

声明：本文仅提供逆向思路和方法，不提供完整代码，所有一切仅供学习交流使用，切勿使用爬虫脚本对网站进行高频率或高并发数据爬取行为，如对网站造成损失的，后果自负！！！💻网址 68747470733a2f2f64632e73696d7577616e672e636f6d2f 🚩目标下图页面中的数据就是我们需要爬取的内容🔍观察响应：data疑似为加密内容，key未知，看起来像一串JS代码利用hook的方式，找寻解密的位置 // hook脚本 (function () { var _parse = JSON.parse; JSON.parse = function (value) { debugge...

点赞评论收藏

分享

昨天 20:44

西北工业大学 Java

3.26美团后端凉经

75min 讲一下java的锁讲一下mysql事务项目拷打，把简历几乎问完了4个题:1.给一段java网络编程代码，找出错误2.给若干个mysql查询语句，找出不能使用索引的3.ai coding，实现java语言的基于令牌桶的什么算法，忘了，美团的这个ai跟nocode几乎有相同的bug，一堆4.01数组，求最长连续子数组的长度，满足0和1的个数相同晚上面的，我已经累的不想面了，直接摆了

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI面会问哪些问题？ #

13299次浏览 273人参与

# 你做过最难的笔试是哪家公司 #

16214次浏览 109人参与

# 厦门银行科技岗值不值得投 #

4790次浏览 113人参与

# 你的实习产出是真实的还是包装的？ #

13988次浏览 209人参与

# 找AI工作可以去哪些公司？ #

3638次浏览 81人参与

# 春招至今，你的战绩如何？ #

43770次浏览 383人参与

# 米连集团26产品管培生项目 #

11845次浏览 276人参与

# 从事AI岗需要掌握哪些技术栈？ #

3821次浏览 110人参与

# 机械/制造每日一题 #

91899次浏览 1491人参与

# 阿里笔试 #

167716次浏览 1204人参与

# 春招你拿到offer了吗 #

822299次浏览 9947人参与

# 应届生进小公司有什么影响吗 #

132663次浏览 1188人参与

# 长得好看会提高面试通过率吗？ #

17931次浏览 190人参与

# 学历对求职的影响 #

656074次浏览 4202人参与

# 应届生第一份工作最好去大厂吗？ #

143239次浏览 1214人参与

# 沪漂/北漂你觉得哪个更苦？ #

6813次浏览 119人参与

# 一张图晒出你司的标语 #

2325次浏览 35人参与

# HR最不可信的一句话是__ #

3831次浏览 75人参与

# AI时代，哪个岗位还有“活路” #

7631次浏览 208人参与

# 职场新人体验 #

180302次浏览 1215人参与

# 工作丧失热情的瞬间 #

374870次浏览 2574人参与

# 什么专业适合考公 #

58462次浏览 303人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务