MiniMax

收藏

人工智能

500-999人

C轮

上海

一键网申

职位（30）面经（102）进度（0）评价（122）薪资（1）内推（195）题库（0）

职位类型

全部

最新

热门

05-28 15:58

成都理工大学前端工程师

MiniMax-AI APP面经

时间线 5.27，一面先做个自我介绍吧。挑一个最有挑战性的项目介绍一下。我：美团内部组件库，基于Ark UI封装Headless风格，解决官方组件库能力缺口，实现PC/移动双端复用，配套MCP文档体系。你在项目里主要负责什么？都搭建了哪些组件？我：负责组件搭建、Ark UI重构、MCP文档与llm.txt维护；PC和移动端都有，技术难度最高的是Select选择框。详细讲讲Select组件的技术难点。我：既要对齐官方UI，又要新增纯文本态和远程回显能力；底层Ark UI用非受控组件+ref强制更新，导致中文输入被截断，读源码后复刻状态流转逻辑重写受控版本解决。双端复用具体是怎么做的？我：逻辑抽离为核心包，UI层通过Context注入，PC和移动端各自通过工厂函数传入UI生成组件。核心包和UI层是同仓库还是不同仓库？为什么选择Monorepo？我：同仓库Monorepo，分PC/Mobile/Core三个包；方便互相引用、联调验证和统一发包。做的MCP具体干了什么？我：STDIO本地运行，通过版本号脚本正则提取文档，提供组件列表、Props查询、完整文档、Demos四个Tool，解决AI开发时组件信息缺失问题。如果让你从零实现一个MCP，应该包含哪些部分？我：选STDIO或SSE架构，定义Tools（查文档、调接口等），实现业务逻辑，通过tools/call暴露能力；也可做Prompt增强。MCP和Skill的区别是什么？我：MCP是扩展AI的"手脚"帮它执行操作，Skill是体系化文档只教它怎么做。手撕：写一个并发控制函数，100个请求最多同时6个，保证返回顺序。实现Promise.all的原生逻辑。回文串最少分割次数。我：讲了贪心思路（找最长回文串直接跳），但复盘发现这题标准解法是动态规划，贪心并不正确。源码：你说你熟悉源码，讲一下React源码。我：Fiber双缓冲（Current/WIP交替）、时间片轮转（默认5ms）、可中断渲染（高优打断低优）、Commit不可打断、Hook挂载在Fiber链表上故不能写在条件分支里。综合：做过最有技术挑战的事情是什么？我：AI上下文过长产生幻觉反复改不动，手工介入读Ark UI源码+浏览器断点，一天内定位非受控组件状态同步问题并解决。这次实习能实习多久？我：6月初到岗，可实习到12月或更久。反问：岗位写的AI Agent/AI App，实际工作内容偏AI还是前端？面试官：隶属算法工程团队，偏前端开发，业务for算法训练调度与评测，团队在做全栈转型，需了解底层infer与任务调度。

查看16道真题和解析

点赞评论收藏

分享

05-23 16:24

北京邮电大学 Python

5.23 Minimax 服务器运维一面面经

1. 你对 AIinfra 有什么了解？2. 你今年就要去港中文读书了，为什么在这个时间点想找实习？3. 毕业论文已经写完了吗？4. 闲下来的时候有在做什么比较有意思的项目吗？5. 对整体的数据清洗、预训练和后训练大概了解多少？6. 如果让你一个月去学一个相对陌生的技术领域（比如 AI infra），你的学习路径会是什么？7. 你前面做的两个项目，学习体验是你刚才说的那种方式吗？8. 做大模型训练与评测这个项目时，遇到了什么比较大的卡点和困难？9. 针对通用数据少这个问题，你没有新加一些数据吗？新加的数据从哪里来的？10. 如果给你一个完全没有数据的项目，需要从数据准备开始做，你会怎么做？

查看10道真题和解析

点赞评论收藏

分享

05-17 18:48

华东师范大学产品经理

理想AI产品面经拆解

原文（来源：牛客网，作者：Arancia_Arancione，门头沟学院）：二面 业务面 40min1. 自我介绍2. 本硕专业都和AI没啥关系，为啥想当AI产品经理?3. 谈一下对AI产品经理这个岗位的理解，以及它对应的职责4. 你觉得AI产品经理需要具备哪些技能5. 谈下对人工智能未来发展趋势的看法6. 你有多段实习经历，你觉得对你来说成长最大或者收获最大的是哪段?7. 介绍一下在小米的实习8. 你说到会通过策略调整来提升大模型，是什么策略?怎么调整的?展开讲下9. 小米这段的大模型数据评测10. 评测的核心指标是什么?怎么得到的?11. 这段实习中，你遇到的最大的挑战or困难是啥?怎么解决的?12. 再讲一下Minimax的这段实习13. 讲下数据标注的工作14. prompt方面做了什么具体的内容?15. 谈一下深度学习这块的原理，例如卷积神经网络、强化学习等，原理+应用场景16. 有监督学习和无监督学习的区别是啥?17. 假设我们现在有一个需求，需要找一个合适的模型来进行解决。现在市面上有很多模型，我们要怎么去选择?或者说怎么验证某个模型就是能够达到我们的预期的?市面上常见的大模型有哪些───1. 17道题40分钟——理想的「剥洋葱」追问战术理想二面问题数是百度、vivo的3-4倍，时间相同。面试策略是「快速下钻，触及边界」——每题约2分钟窗口，立刻追问下一层。靠背诵的答案撑不过三轮追问。面试官要的不是完美答案，是认知边界在哪。2. Q8-Q10连续追问链暴露了面试的真实目的Q8「什么策略」→ Q9「评测怎么做」→ Q10「核心指标是什么、怎么得到」。从方法论→实操→量化的下钻路径。如果实习经历真实深度参与，Q10能直接报出指标和获取方式；如果是包装的，到Q9就开始含糊。面试官用这个链精确测量实习深度。3. Q15「谈一下深度学习原理」——AI PM面试的技术边界测试考的不是有没有ML学位，是能不能用产品经理的语言讲清楚技术原理。合格回答用类比：CNN像滑动窗口扫描图片，强化学习像训狗。不合格要么背教科书定义（不懂跟非技术人员沟通），要么完全答不上来（跟算法工程师沟通成本极高）。4. Q17「如何验证模型达到预期」——区分AI PM和传统PM的终极问题传统PM验证「功能有没有按PRD做出来」；AI PM验证「模型在不完全可控的情况下能不能稳定输出期望结果」。高分框架：验证维度（准确率/召回率/延迟/成本）→ 评测集（正常+边界+对抗Case）→ A/B方案 → 上线标准。

查看17道真题和解析

点赞评论收藏

分享

05-10 09:39

蚂蚁集团_平台工程与技术风险部_开发实习生(实习员工)

暑期实习云计算与虚拟化面经

总结一下这段时间遇到的云计算与虚拟化的面试内容，我也拿这些问题去和同事和前辈交流，发现确实是结合自己做过的业务和对于知识的理解来看回答的。所以说对于每个问题我都会抛砖引玉的写一下自己的理解，希望各位大佬可以多多补充。## 滴滴 云产品控制平台1. 如何处理熔断的逻辑（这个部分属于是云监控体系中的异常处理部分，回答的话第一点可以说一下异常发现的处理，第二点可以去结合VM Continer对于隔离的理解 然后腾讯云最近的这个CubeSandbox和传统的E2B沙箱也可以结合这部分来答）2. 对于项目的可视化，应该怎么去设计指标（个人感觉就是对于  宿主机-nodeexport  容器-cAdvisor  程序-metrics等级别，然后可以看一下Promethus的四类采集指标）3. 说一下你对ServiceMesh 的理解（VM 到Continer 到servicemash的技术演进 是解决什么问题的  数据平面与控制平面）4. 说一下Raft与Proxe算法的区别（我答得term  三角色  脑裂控制   Proxe）5. 常用的中间件有哪些## 蚂蚁集团 基础设施1. 说一下你对于位图这种结构在计算机应用中的理解（qcow2镜像  多路复用select处理网络IO 文件描述符集合）1. 说一下你对于布隆过滤器的理解（多哈希 感觉这样算是一种补充）2. 说一下你对于时间戳编码的思路  说一下你对于变长字符串编码的思路（Promethus中的XOR以及时间戳定差异增量处理的思路）3. 如果一个host的某个指标过于大量的话有什么处理方法（环形缓冲区  P50 P99这种指标）4. 异步重启的兜底逻辑5. 高并发场景  数据库内核优化## 快手 可视化平台1. 梳理一下业务开发的方法论1. 由点到面2. 技术调研2. 可观测的思路## 普联 虚拟化1. 一个虚拟机的启动过程（资源检查  ）2. 说一下你对于Continer和VM区别的理解3. 说一下你对于文件系统和块存储系统的理解4. 虚拟化中QEMU进程和宿主机OS或者硬件的交互说一下你的理解（先说一下Vmm的作用敏感指令捕获、影子页表  然后聊一下设备透传 DBT 半虚拟化  硬件辅助虚拟化等进阶场景）## 腾讯 浏览器业务 云业务1. 当CPU挂满 如何排查1. 当CPU未满但是丢包很多原因1. 一致性哈希如何解决单点过热问题1. 哈希碰撞和解决方式## 火山引擎 存储1. qcow2的数据大小2. nbd cbt的实现## 百度 分布式计算1. k8s相关的业务  机制2. raft脑裂 如何预防## Minimax 基础设施1. ceph rbd的机制2. k8s namespace  cgroup

查看28道真题和解析

点赞评论收藏

分享

05-09 06:25

门头沟学院 Java

minimax大模型agent二面分享

还是太菜了，下去沉淀一下1.深入剖析ReAct框架的局限性，并在此基础上，详细解释Plan-Then-Act、ReAct + 轻规划以及Tree/Graph Planning（如ToT、LATS）这三种范式的核心区别、适用场景和各自的优缺点。 2.请阐述“思维链”（Chain-of-Thought, CoT）与“规划”（Planning）的本质区别。为什么说CoT仅仅是“将推理过程写出来”而Planning是生成一个“可执行的任务表”？请用具体例子说明。 3.在处理一个需要多步工具调用的复杂任务（例如“调研三篇关于RAG+RL的论文并输出中文总结”）时，如何设计一个鲁棒的规划机制来应对中间步骤的失败（如某个API调用超时或返回数据格式错误）请描述具体的重试、回滚或重规划策略。 4.详细解释Tree-of-Thoughts (ToT) 或类似LATS（使用LLM进行蒙特卡洛树搜索）的框架是如何工作的？它们与传统的线性规划相比，在探索最优解题路径上有何本质优势？ 5.在Agent推理过程中，经常会出现“推理断层”或“结果与目标偏离”的问题。请结合具体技术或你的实践经验，说明如何通过提示工程、记忆机制或架构设计来缓解或解决这一问题。6.请深入剖析大模型Agent的“长期记忆”模块。在设计一个能够持续运行、与用户长期交互的Agent时，你会如何设计记忆的存储结构（如向量数据库、图数据库）、更新策略（如记忆合并、遗忘机制）、检索机制（如重排序、混合检索）来确保记忆的高效和准确？ 7.当历史对话记录非常长时（远超模型上下文窗口）你有哪些策略来优化记忆的查询效率并保证关键信息不丢失？请比较“滑动窗口”、“总结压缩”、“向量检索”等不同方案的优劣。 8.什么是“混合检索”（Hybrid Search）？请解释为什么在工业级RAG系统中，纯向量检索往往不够用，需要结合关键词检索（如BM25）。请给出一个具体的业务场景，说明混合检索的必要性。

查看8道真题和解析

点赞评论收藏

分享

05-06 03:15

门头沟学院算法工程师

Minimax大模型算法面经分享-攒人品

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.实习拷打2.了解Agent吗？把RAG做成Agent有什么好处3.在 Agent 多轮对话任务中，Attention 的局限性体现在哪些方面？4.介绍 一下SFT 的核心流程以及数据集的构建策略是怎么样的。5.SFT 之后常见的 Post-Training（如 RLHF）还有哪些？它们之间的目的有何区别？6.什么是 RAG？它是怎么提升生成质量的？标准RAG有什么问题与传统“检索 + 模型生成”的流程有何不同？7.如何评估一个RAG系统是否真正 work？有哪些具体的指标或框架？8.PPO和DPO 在大模型对齐中的主要区别是什么？DPO 训练通常有哪些注意事项？9.是否了解或使用过 GRPO 算法？10.项目里的 Modular Agent 是如何实现Multi-step Planning的？11.项目中工具调用的调度策略是如何设计的？是否有异常 fallback策略？12.Agent评估体系包括哪些维度？如何衡量规划能力 vs 幻觉率？13.在微调Qwen 模型时，选择的训练阶段和 Loss 函数是如何决定的？14.Prompt 自动推荐模块用了哪些优化策略？有没有尝试过 Prompt 压缩或 Embedding 表示的方式？15.场景题： 假如一个 Agent 推理链路包含 3 个工具 + 高频请求，导致系统整体延迟较高，你会如何进行工程优化？16.说一下LoRA的原理；LoRA完推理的时候要挂着Adaptor吗？

查看15道真题和解析

点赞评论收藏

分享

05-02 12:35

门头沟学院算法工程师

MiniMax AI Infra27实习

发一下问题给大家参考，攒攒人品！项目经历提问1. 请分享你在实习中参与的项目，着重描述你遇到的最大技术难题以及取得的优化成果理论问答2. DeepSpeed ZeRO 的三个阶段（Stage-1 / Stage-2 / Stage-3）各自对哪些状态进行了切分？它们在通信量和显存节省上有何递进关系？3. 训练大模型时，你使用过哪些并行方案？数据并行、张量并行和流水线并行的设计思想与适用条件分别是什么？4. 假设需要训练一个 70B 参数量级的模型，如何粗略计算单张 GPU 所需的显存量？5. LoRA 的核心思想是什么？为什么通过低秩矩阵分解可以大幅降低需要更新的参数数量？6. 在 LoRA 中，降维矩阵 A 和升维矩阵 B 的初始化方式为何不同？这样设计的目的是什么？7. 除了 ZeRO 系列之外，你还了解哪些用于大模型训练的优化技术？代码题8. 实现一个滑动窗口求最大值的算法

查看8道真题和解析

点赞评论收藏

分享

05-02 05:30

门头沟学院 Java

MiniMax AI Infra实习一面

发一下问题给大家参考，攒攒人品！有面试过同岗的朋友欢迎评论区交流项目深挖1. 请介绍你的实习项目和研究工作理论基础2. SFT 和 RLHF 的训练目标在本质上有何不同？为什么大多数模型做完 SFT 之后还要再经过 RLHF 阶段？3. MoE 模型中路由模块是怎样决定将 token 分配给哪些专家的？什么原因会导致专家之间的负载出现严重不均？4. 当部分专家的利用率明显偏低时，可以通过哪些手段改进路由策略来提高利用率？5. 请介绍你比较熟悉的大模型架构，并从注意力计算、训练方法和推理效率等维度分析它们之间的主要差异6. PPO 在 RLHF 框架中优化的核心目标是什么？请写出其目标函数并对其中每一项进行解释7. MoE 架构在模型参数量不断增长的背景下，为何仍能维持相对较高的训练效率？现场编程8. 给定 K 个已排序的数组，求它们合并后的中位数

查看8道真题和解析

点赞评论收藏

分享

04-09 17:20

门头沟学院 Java

minimax大模型agent一面好难

1.Transformer 中 Attention 的本质是什么？从数学角度解释一下。2.了解Agent吗？把RAG做成Agent有什么好处3. 在 Agent 多轮对话任务中，Attention 的局限性体现在哪些方面？4.介绍 一下SFT 的核心流程以及数据集的构建策略是怎么样的。5. SFT 之后常见的 Post-Training（如 RLHF）还有哪些？它们之间的目的有何区别？5.什么是 RAG？它是怎么提升生成质量的？标准RAG有什么问题与传统“检索 + 模型生成”的流程有何不同？6.如何评估一个RAG系统是否真正 work？有哪些具体的指标或框架？7.PPO和DPO 在大模型对齐中的主要区别是什么？DPO 训练通常有哪些注意事项？8.是否了解或使用过 GRPO 算法？9. 项目里的 Modular Agent 是如何实现Multi-step Planning的？10. 项目中工具调用的调度策略是如何设计的？是否有异常 fallback策略？11. Agent评估体系包括哪些维度？如何衡量规划能力 vs 幻觉率？12.在微调Qwen 模型时，选择的训练阶段和 Loss 函数是如何决定的？13. Prompt 自动推荐模块用了哪些优化策略？有没有尝试过 Prompt 压缩或 Embedding 表示的方式？14. 场景题： 假如一个 Agent 推理链路包含 3 个工具 + 高频请求，导致系统整体延迟较高，你会如何进行工程优化？15. 说一下LoRA的原理；LoRA完推理的时候要挂着Adaptor吗？16手撕代码：torch写SFT的loss计算代码（注意shift right

mcart：这是应用开发还是算法开发

查看17道真题和解析

点赞评论收藏

分享

04-08 16:53

MiniMax 数据工程师一面经验

1、自我介绍2、项目：a.讲一个最熟悉的 Agent/RAG 项目b.项目中数据处理的难点 & 怎么解决的3、技术基础：a.大模型基础：Transformer 架构、注意力机制原理b. Agent 核心概念：规划、工具调用、记忆模块、反思机制c. RAG 全流程：文档清洗、切片策略、向量化模型、检索召回、重排序d. 向量数据库：FAISS/Milvus 原理、索引类型、性能优化e. 数据标注规范：怎么保证标注质量、数据清洗方法4、算法：a.数据召回率、精确率评估，怎么优化召回效果b.如何处理 Agent 工具调用的错误数据（数据校验、异常兜底）5、AI 业务理解：怎么提升 Agent 的回复准确性； 如何构建高质量的 Agent 训练 / 微调数据；对 MiniMax Agent 产品的理解 & 优化建议。

查看13道真题和解析

点赞评论收藏

分享

04-08 16:50

长沙理工大学 Java

MiniMax 一面凉经

一、自我介绍二、项目：1.秒杀怎么做的2.项目没多问，可能不感兴趣三、八股：1.Go 相关：协程、GMP 调度，协程和线程的区别；Go 协程泄漏什么情况会发生2.MySQL 事务及实现：MySQL 索引、树、MVCC、索引覆盖，最左匹配原则，索引失效3.进程和线程区别，虚拟内存相关，RocketMQ相关四、算法：K 个一组反转链表五、AI 相关：RAG 是什么意思、主要流程；Skill 的工作模式

查看8道真题和解析

点赞评论收藏

分享

03-31 02:45

门头沟学院算法工程师

大模型算法日常实习一面-MiniMax

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.项目拷打2.介绍你熟悉的大模型架构3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率？4.MoE 的路由机制是怎么工作的？为什么会出现专家负载不均的问题？5.如果专家利用率很低，你会怎么优化路由策略？6.SFT 和 RLHF 在训练目标上有什么本质区别？为什么很多模型在 SFT 后仍然需要 RLHF？7.RLHF 中 PPO 的核心优化目标是什么？写出 PPO 的目标函数，并解释每一项的意义。8.手撕：实现 滑动窗口最大值

查看11道真题和解析

点赞评论收藏

分享

03-28 13:40

门头沟学院 Java

Minimax AI应用开发一面实习

给我面没招了，发点面经攒攒人品～1.实习拷打2.你们有没有遇到 Agent 之间“决策冲突”的情况？比如设计和代码生成不一致，是怎么解决的？3.你们为什么选择“技术方案驱动”，而不是直接让 AI 从 PRD 出码？4.你们 .catpaw/rules 这套知识库，和像 OpenClaw 这种基于 RAG 的 memory，有什么区别？5.如果知识库内容过多，AI 也会有上下文压力，你们是怎么做裁剪或者命中的？6.你们有没有做 embedding 检索？7.如果知识库里的内容是错的或者过期了，会不会对 AI 产生误导？你们怎么治理这个问题？8.在一个非常大的存量项目里（比如几十万行代码），你们是怎么让 AI 快速理解项目结构的？9.你们现在 AI 出码留用率是 50%+，那剩下 50% 主要问题出在哪里？10.在复杂业务场景下，AI 出码质量下降，你觉得是什么问题？11.AI 有没有出现过“看起来对，但其实逻辑是错的”这种情况？12.你们有没有做过代码 diff 级别的控制，比如限制 AI 修改范围？13.你们基于 Playwright 做自动化测试，那测试用例是怎么保证覆盖率的？有没有评估指标？

查看12道真题和解析

点赞评论收藏

分享

03-26 14:45

广西大学算法工程师

MiniMax 大模型开发二面

1. 你做过大模型数据处理的话，预训练数据清洗一般怎么做，去重、去噪、质量过滤分别解决什么问题？预训练数据清洗本质上是在控制“数据量”和“数据质量”之间的平衡。去重主要解决模型反复记忆同一批内容，避免浪费训练 token，也减少 benchmark 污染。去噪主要是过滤乱码、模板页、广告页、低信息密度文本、机器生成垃圾内容，不然模型会学到很差的语言模式。质量过滤更偏向保留高价值内容，比如结构完整、语义通顺、知识密度高、代码块规范或者问答对明确的数据。实际工程里一般不会只靠一个规则，而是多阶段处理：先做规则清洗，再做语言识别、长度过滤、内容打分，最后再结合 dedup 和采样策略。因为预训练效果...

AI-Agent面试实战...

点赞评论收藏

分享

03-26 06:35

门头沟学院人工智能

大模型算法三面-Minimax 攒人品中

发点面经攒攒人品～1.项目拷打2.训练数据是如何构造的？如何做数据清洗、去重和质量控制？3.RLHF 的完整流程是什么？4.如果只使用 SFT，会带来哪些问题？5.在 RLHF 中奖励模型的训练数据是怎么构造的？6.如何避免奖励模型被策略模型“欺骗”？7.你怎么看当前大模型在对齐、安全和成本上的挑战？8.手撕：实现 区间第 k 小查询支持多次查询，要求接近 O(log n)

查看8道真题和解析

点赞评论收藏

分享

03-26 04:50

门头沟学院推荐算法

minimax大模型算法一面好难啊感觉

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.介绍实习和论文2.介绍你熟悉的大模型架构追问：两者在注意力结构、训练策略和推理优化上的主要差异。3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率？4.MoE 的路由机制是怎么工作的？为什么会出现专家负载不均的问题？5.如果专家利用率很低，你会怎么优化路由策略？6.SFT 和 RLHF 在训练目标上有什么本质区别？为什么很多模型在 SFT 后仍然需要 RLHF？7.RLHF 中 PPO 的核心优化目标是什么？写出 PPO 的目标函数，并解释每一项的意义。8.手撕：实现 K 个有序数组的中位数

查看12道真题和解析

点赞评论收藏

分享

03-23 10:01

已编辑

MiniMax 前端面经

1. 浏览器 CSS、JS、DOM 解析顺序• 解析顺序：HTML 解析生成 DOM → CSS 解析生成 CSSOM → 合成渲染树 → 渲染• 阻塞规则：CSS 不阻塞 DOM 解析，但阻塞 JS 执行；JS 阻塞 DOM 解析2. 表格相关• 表格缓存：内存/本地存储缓存数据、滚动位置、筛选状态• 首屏监控：用 Performance 监听 FP、FCP、LCP 等核心指标• 虚拟表格：只渲染可视区 DOM，用占位撑开高度，滚动时动态替换内容• 表格选型：简单用原生；大数据用虚拟表格；复杂用 AntD/AgGrid3. 前端安全• XSS：转义、CSP、HttpOnly• CSRF：Token、SameSite Cookie• 点击劫持：X-Frame-Options• 资源校验：SRI4. Tree-Shaking 原理• 基于 ES6 模块静态分析，打包时删除未引用代码，生产模式生效，不支持 CommonJS5. React 与 Vue 区别• React：不可变数据、JSX、手动更新、全量 Diff• Vue：响应式代理、模板、自动更新、精准追踪更新6. 微前端隔离（快照 vs Proxy）• 快照：保存/恢复全局变量，实现简单，性能差• Proxy：代理 window 实现沙箱，隔离好、性能高，兼容略差7. 部署与回滚• 部署：打包 → 上传静态资源 → Nginx 配置• 回滚：切换至历史版本/重新部署上一版包8. WebWorker• 作用：开辟独立线程，处理耗时计算，不阻塞主线程• API：new Worker()、postMessage、onmessage、terminate()9. AI 语音对话实现1. 前端获取麦克风音频2. ASR 转文字3. 发送大模型获取回答4. TTS 转语音5. 前端播放10. JWT 双 Token• AccessToken：短效，接口鉴权• RefreshToken：长效，刷新用• 流程：AT 过期 → 用 RT 换新 AT → RT 过期重新登录11. MiniMax 了解• 国内 AGI 大模型公司，提供文本、语音、多模态AI 能力，低延迟、端侧优化

查看30道真题和解析

点赞评论收藏

分享

03-11 14:45

门头沟学院推荐算法

minimax推荐算法日常实习面经

继续来分享下之前的面经~欢迎友好讨论，信息共享1.项目拷打2.冷启动怎么做的，具体场景，排序和召回里怎么做3.多路召回怎么合并，考虑有评分和没有评分的怎么合并4.负样本采样，随机采样会有什么影响，用batch采样呢，应该怎么做5.特征怎么做的，最重要的特征是什么，怎么衡量特征的重要性6.比较下树模型和深度学习模型，哪个效果好，为什么7.介绍下NDCG和auc8.树模型的评估指标，信息熵，信息增益怎么算的，基尼系数怎么算的，物理含义，为什么用基尼系数，不用信息增益9.手撕auc

查看9道真题和解析

点赞评论收藏

分享

03-02 19:35

浙江工业大学深度学习

很多人问我如何准备大模型的面试，分享下我的经验，针对两种情况：1. 有大模型实习2. 无大模型实习针对无大模型实习的情况，我建议先找一段中厂实习为主，比如 zhipu、Minimax （当然有大厂进大厂）这些，相对容易进，尽量积累大模型实习经历。针对有大模型实习的情况，复习内容为：1. 常规八股（transformer、bert 等）2. 最新八股（GQA 等）3. 技术报告（一定要自己看原PDF，目前推荐 DeepSeekV3, R1, kimi1.5, Minimax-01, Qwen2.5, Qwen2.5-VL）4. 手撕 Leetcode：Hot1005. 手撕模型，比如 MHA 这些首先是常规八股和最新八股，这一部分可以自己找找网上资料，整理好的，背。然后是技术报告，目前推荐的内容有：1. DeepSeekV3：必读2. DeepSeekR1：必读3. Kimi1.5：选读4. Minimax-01：选读，据我所知最长上下文模型（外推到 4M，不过好像被 LLama4 的 10M 超过了）5. Qwen2.5：必读6. LLama3.1：必读7. Qwen2.5-VL（如果简历有多模态内容）：选读重点关注：1. 阶段训练（预训练几段、Post-training 几段？上下文用了多少？数据配比是什么？）2. 模型创新点（MHA 创新是什么？作用是什么？）3. 上下文优化创新点（一般是优化显存和阶段训练）4. 多模态优化创新点（简历有多模态内容）5. 几个模型不同之处（比如 Qwen2 和 Qwen2.5 的不同之处）最后是手撕，Leetcode 只刷 Hot100 够了，模型手撕建议关注（我目前会的）：1. MHA2. LayerNorm3. Transformer Encoder (MHA+LayerNorm+FFN)4. PE（绝对位置编码）5. ROPE6. SwiGLU7. RmsNorm每次面试前快速过一遍就 ok 了。

查看20道真题和解析

点赞评论收藏

分享

03-02 15:04

北京大学算法工程师

我是如何准备大模型算法岗面试的？

很多人问我如何准备大模型的面试，分享下我的经验，针对两种情况：1. 有大模型实习2. 无大模型实习针对无大模型实习的情况，我建议先找一段中厂实习为主，比如 zhipu、Minimax （当然有大厂进大厂）这些，相对容易进，尽量积累大模型实习经历。针对有大模型实习的情况，复习内容为：1. 常规八股（transformer、bert 等）2. 最新八股（GQA 等）3. 技术报告（一定要自己看原PDF，目前推荐 DeepSeekV3, R1, kimi1.5, Minimax-01, Qwen2.5, Qwen2.5-VL）4. 手撕 Leetcode：Hot1005. 手撕模型，比如 MHA 这些首先是常规八股和最新八股，这一部分可以自己找找网上资料，整理好的，背。然后是技术报告，目前推荐的内容有：1. DeepSeekV3：必读2. DeepSeekR1：必读3. Kimi1.5：选读4. Minimax-01：选读，据我所知最长上下文模型（外推到 4M，不过好像被 LLama4 的 10M 超过了）5. Qwen2.5：必读6. LLama3.1：必读7. Qwen2.5-VL（如果简历有多模态内容）：选读重点关注：1. 阶段训练（预训练几段、Post-training 几段？上下文用了多少？数据配比是什么？）2. 模型创新点（MHA 创新是什么？作用是什么？）3. 上下文优化创新点（一般是优化显存和阶段训练）4. 多模态优化创新点（简历有多模态内容）5. 几个模型不同之处（比如 Qwen2 和 Qwen2.5 的不同之处）最后是手撕，Leetcode 只刷 Hot100 够了，模型手撕建议关注（我目前会的）：1. MHA2. LayerNorm3. Transformer Encoder (MHA+LayerNorm+FFN)4. PE（绝对位置编码）5. ROPE6. SwiGLU7. RmsNorm每次面试前快速过一遍就 ok 了。

喜欢吃卤蛋的托尼of...：大佬想问下项目该怎么准备

查看19道真题和解析

点赞评论收藏

分享

分享我的面试经验

模拟面试

真实面试体验，快速补齐短板

应聘感受

暂无应聘感受

牛客网
牛客网在线编程
牛客网题解
牛客企业服务