昨天 00:39 广西大学算法工程师发布于吉林

关注

微信大模型算法开发一面

1. 介绍下你实习学了什么做过什么项目,为什么离职的

2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住，真正难点在哪

MoE 的关键不是“参数变多了”，而是“每个 token 只激活一部分参数”。也就是说总参数量可以做得很大，但单次前向只走少数几个 expert，所以理论上计算量不会随着总参数线性增长。这个思路在大模型里很有吸引力，因为可以同时兼顾容量和成本。

但真正难的地方是路由和负载均衡。路由器如果只偏爱少数 expert，训练会很不稳定，热门 expert 被打爆，冷门 expert 学不到东西。另一个难点是通信开销，尤其多机训练时，token dispatch 和 gather 的代价不低。所以 MoE 能不能跑好，不只是模型结构问题，更是系统问题。

import torch

logits = torch.randn(4, 8)   # 4个token, 8个expert
topk_val, topk_idx = torch.topk(logits, k=2, dim=-1)
print(topk_idx)  # 每个token选择两个expert

3. MoE 里的负载均衡一般怎么做，为什么很多模型看起来 loss 正常但 expert 已经废了

最常见的方法是给路由器加辅助负载均衡损失，让 token 分配更均匀，避免所有 token 都涌向几个强 expert。还有一种做法是设置容量上限，超过容量的 token 要么被丢弃，要么走次优 expert。这样能抑制极端拥塞，但也会引入路由不连续的问题。

很多模型训练时总 loss 看起来没问题，但 expert 其实已经塌了，原因是主任务 loss 并不会直接告诉你“是不是只有两个 expert 在干活”。所以做 MoE 训练时，我会额外盯几类指标：每个 expert 的 token 占比、路由熵、溢出比例、不同层之间的激活偏差。只看 loss，很容易被骗。

4. GQA、MQA 和标准 MHA 的区别是什么，为什么线上推理里大家更关心 GQA

标准 MHA 是每个 head 都有独立的 Q、K、V，这样表达能力最完整，但 KV cache 的占用也最大。MQA 是多个 query head 共享一组 K、V，极大节省 KV cache，但表达能力会损失得比较明显。GQA 可以看成两者折中，把多个 query head 分成组，每组共享一套 K、V，所以在效果和推理成本之间比较平衡。

线上推理更关心 GQA，是因为它直接关系到长上下文服务成本。很多时候显存瓶颈不是模型权重，而是 KV cache。GQA 能让你在不明显伤效果的情况下，把 cache 压下去不少，所以工程上很实用。

5. RoPE 为什么能做位置编码，长上下文外推为什么经常失真

RoPE 的核心不是给 token 加一个绝对位置向量，而是把位置信息编码进注意力里的相对相位关系。这样做的好处是相对位置关系能自然进入注意力计算，模型更容易学到“前后依赖”而不是死记具体索引。它在中等长度上下文里很稳，也是很多大模型默认方案。

外推时经常失真，是因为模型训练时看到的相位范围有限，推理时如果把位置硬拉得很长，高频部分会扭曲，模型虽然能吃进长文本，但并不真的理解长距离关系。很多长上下文技巧，比如 NTK-aware scaling、YaRN，本质上都是在想办法减缓这种频率失配。

import math

def rope_theta(pos, dim, base=10000):
    return [pos / (base ** (2 * (i//2) / dim)) for i in range(dim)]

print(rope_theta(10, 8))

6. FlashAttention 为什么会快，它优化的到底是算力还是访存

FlashAttention 真正优化的重点不是减少理论计算量，而是减少 HBM 读写，把 attention 计算尽可能放在 SRAM 里分块完成。传统 attention 会显式构造大

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

03-30 21:26

香港中文大学 Java

春招过半，腾讯毁约26届校招生Offer

我是腾讯26年的校招生，从去年8月开始我入职腾讯CDG某部门实习，因为目标就是转正，从进去第一天开始，我就是按全职的标准在干活的，一个人负责一个独立模块，整个8月到11月，我一个月最多请一天假，除了真的有考试，几乎天天都在，所有课余时间都奉献给了公司。在整个过程里，领导对我的评价一直很正面，甚至跟我说过，这里会是一个很好的起点。我当时其实手里不止腾讯一个选择，还有好几家好头部大厂和外企给了面试，有的已经到终面，有的已经拿到offer，有些薪资比腾讯还高。但我信任腾讯，觉得一个大厂不会对认认真真干了这么久得到转正的实习生做出撕offer的事。所以我签了腾讯的转正offer，其他的全部婉拒签完之后我的工作量没有任何变化，还照常推项目，甚至一直到被毁约前一周，我收到的是工作上的正面反馈。但就直到上周，我还在项目上工作，就在不久之前还在得到+1对工作质量的认可，在没有任何征兆的情况下，就突然得到HR的通知，说因为部门HC的原因，我的Offer会被撤回，我需要马上签字，不然就会被强行解约。面对这个情况，我至今想不通第一，部门并无大规模变动，同届校招生无一受影响，为何偏偏只对我一个海外院校学生没有三方协议的应届生下手？是不是因为我身份特殊、维权更难，就成了可以随意牺牲的软柿子？第二，腾讯是否算过我付出的巨大机会成本？我从大一就开始实习，辗转各个大厂和知名企业，牺牲了大量课余时间，前前后后做了至少7-8份实习，就是为了毕业能有一份工作。终于拿到腾讯的转正offer，我以为可以安心了。结果呢？春招已经过了大半，我对口的岗位招聘接近尾声，我现在面临的是毕业即失业，甚至可能要延长学业。区区几个月的实习薪水补偿，能弥补我错失的全部机会吗？能弥补这几个月的心血和精神上的打击吗？难道作为头部企业的腾讯，毁约一个校招生的offer就这么随便？我不知道怎么面对父母，怎么面对朋友，怎么面对努力了整整一个学生生涯的的自己！收到毁约通知当天，我在小红书如实发布经历，帖子迅速获得热度，但仅仅几个小时过后，却在无任何违规通知、账号显示正常的情况下，被悄无声息限流屏蔽——只有我自己能看见，外人完全无法点开，后续相关内容也全部被限制流量。我只是一个普通应届生，只是想说出自己的真实遭遇，腾讯到底动用了何种手段，让一个讲述事实的声音被如此压制？我为我的陈述承担一切法律责任收起

饿魔：鹅现在这么逆天了？

点赞评论收藏

昨天 01:30

The University of Manchester 算法工程师

想留在家乡工作为什么这么难？

去年出国读书，今年十一月份正式从毕业，在校期间就开始投英国的工作，找到了一个实习和一个伦敦的中型科技公司以及曼城埃森哲的Offer，但后面因为和家里的沟通，以及英国PSW签证问题就没有推进了。当时想的是，说这么难找工作的英国我都这么顺利找到了，一时觉得未来虽难，还是充满了希望。回来之后就随便投了一些公司，但逐渐发现其实没有那么简单，一开始没有发觉，后面投的简历多了就逐渐感觉到内卷。之前在英国投的公司，更多看你个人的综合素质，是一个比较长的流程，从你的基础，潜力和对这份工作的热情或者动机，而国内好像总是试图从某一个方面来对你进行打压或者筛选，你要是有实习就从你的学历挑刺，你要是有学历就从你简历空...

点赞评论收藏

昨天 11:15

门头沟学院算法工程师

小红书大模型算法春招二面

继续来分享下之前的面经~欢迎友好讨论，信息共享1- RAG痛点2- 检索精度与召回率的平衡（如chunk粒度优化） 如何解决多跳推理问题？3- 知识更新机制（小红书UGC内容高频更新如何应对4- LLM针对RAG的优化5- 是否用LLM直接生成Embedding？如何解决生成式检索的稳定性6- 提示工程优化（如HyDE技术在小红书的应用场景）。7- 幻觉问题8- 检索结果置信度过滤方案？是否引入知识图谱作为验证层9- 检索污染处理10- 用户生成内容（如错误美妆知识）如何清洗？实时性（如突发谣言）如何应对11- 图文对RAG产品设计12- 多模态检索方案（图文联合Embedding vs. 分离对齐）13- 如何将用户评论/标签纳入检索增强

查看13道真题和解析

点赞评论收藏

03-29 20:16

厦门大学搜索算法

soul搜推算法面经

查看6道真题和解析

点赞评论收藏

03-30 16:54

浙江大学 Java

被面试官断崖式分手了

刚结束字节一面，面试官没有给我反问环节，手撕通过测试用例结束他就说回去再看一下代码然后就说本次面试结束了本来还想问问他对我的看法和不足点之类的。但他都这么说了，咱也不敢问我还能不能反问这是啥情况，师兄都说没经历过难道面试官确定不要我了嘛所以连最后的温柔都不给我了嘛？

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 大厂实习和小厂实习最大的区别是什么？ #

12146次浏览 83人参与

# 你都用vibe coding做过什么？ #

1979次浏览 60人参与

# 如果人生可以debug你会改哪一行? #

# Vibe Coding 会干掉初级岗位吗？ #

# 面试被问到不会的问题，你怎么应对？ #

# 选完offer后，你后悔学本专业吗 #

微信 大模型算法开发 一面

1. 介绍下你实习学了什么 做过什么项目,为什么离职的

2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住，真正难点在哪

3. MoE 里的负载均衡一般怎么做，为什么很多模型看起来 loss 正常但 expert 已经废了

4. GQA、MQA 和标准 MHA 的区别是什么，为什么线上推理里大家更关心 GQA

5. RoPE 为什么能做位置编码，长上下文外推为什么经常失真

6. FlashAttention 为什么会快，它优化的到底是算力还是访存

全站热榜

创作者周榜

微信大模型算法开发一面

1. 介绍下你实习学了什么做过什么项目,为什么离职的