04-15 13:13 广西大学算法工程师发布于天津

关注

高德大模型算法开发一面(暑期)

1. 自我介绍

2. 项目拷打

3. Perplexity 的定义、公式和真正的使用边界是什么

Perplexity 本质上是语言模型对测试序列平均不确定性的指数化表达。若测试集为(x1,…,xT),则

它等价于平均负对数似然的指数形式，值越低通常表示模型对数据分布拟合得越好。很多人只会背“越低越好”，但真正面试里要说明白：PPL 是训练分布拟合指标，不直接等价于问答质量、推理能力、事实性或者指令遵循能力。模型可能 PPL 更低，但在复杂推理或者对齐任务上不一定更强。

4. 为什么不同 tokenizer 下的 Perplexity 不能直接横向比较

因为 PPL 的分母是 token 数，而 token 的切分方式直接决定序列长度和条件概率分解路径。两个模型如果 tokenizer 不同，一个词可能被切成 1 个 token，也可能被切成 4 个 token，平均 log-likelihood 的统计单位已经变了，数值自然不可直接比较。更严谨的做法是比较同一 tokenizer 下的 PPL，或者把概率换算到统一的字符级、字节级甚至 bits-per-byte 指标上，否则“谁的 PPL 更低”这个结论很可能没有意义。

5. 多头注意力真正带来的表达增益是什么，为什么不是简单并行几次注意力

多头注意力的核心不在“并行”，而在“把表示投影到多个不同子空间里做关系建模”。单头注意力是在一个统一相似度空间里做匹配，多头则允许不同 head 学到不同尺度、不同方向、不同类型的相关性模式。有的 head 偏局部词法关联，有的偏长距离依赖，有的偏结构边界，有的偏位置关系。它的本质是一种子空间分解，而不是机械堆头数。

如果从线性代数角度讲，多头相当于把一个大的关系建模任务拆成多个低维投影后的关系建模，再把这些结果拼回去。这样提升的不是单次匹配能力，而是整体表示的可分解性和多样性。

6. 注意力分数为什么要除以\，不除会发生什么

如果 query 和 key 的每一维都近似独立且方差相近，那么它们点积的方差会随着维度 d_k增大而线性变大。维度越大，未经缩放的点积数值就越容易变得很大，送进 softmax 后会迅速饱和，使得梯度集中在极少数位置上，训练不稳定。除以的作用就是把分数尺度拉回相对稳定的范围，避免 softmax 过早进入尖峰状态。

7. BERT 的掩码机制和 Decoder-only 的因果掩码机制本质差异是什么

BERT 的核心是双向建模，它通过 MLM 任务随机遮蔽部分 token，让模型在看到左右文的前提下恢复被 mask 的位置，因此训练目标是条件填空。Decoder-only 模型则使用严格的因果掩码，只允许当前位置看见自己之前的 token，训练目标是下一个 token 预测。这两种掩码差异带来的不是一点点实现区别，而是归纳偏置完全不同：前者擅长做编码、理解、匹配和判别，后者天然适合生成、续写和自回归推理。

import torch

def causal_mask(n):
    return torch.triu(torch.ones(n, n), diagonal=1).bool()

print(causal_mask(5).int())

8. RoPE 为什么能编码相对位置信息，长上下文外推时又为什么会失真

RoPE 的关键是把位置编码写进 query 和 key 的旋转变换里。旋转后两个位置向量的内积不仅依赖内容，还依赖相对位移，因此注意力天然带有相对位置信号。它的好处是无需显式学习一张绝对位置表，而且在一定范围内相对位置泛化不错。

但长上下文外推时会失真，因为训练中模型实际看到的位置频率范围是有限的，超过这个范围后旋转角度分布开始偏离训练分布，高频分量容易出现相位扭曲，最终导致远距离 token 的相似度结构被破坏。很多长上下文技巧本质上都在修这个频率外推问题，而不是简单把最大长度参数改大。

9. FlashAttention 为什么快，真正减少的是什么复杂度

FlashAttention 并没有改变标准注意力的理论算子结果，它主要减少的是 IO 复杂度 而不是算术复杂度。普通实现会显式构造巨大的 attention score 矩阵并频繁在 HBM 和 SRAM 之间搬运，显存读写代价极高。FlashAttention 的做法是分块计算，在片上内存中完成局部 softmax 统计和加权累积，避免中间大矩阵落到高带宽显存。GPU 上很多时候真正慢的不是 FLOPs 不够，而是搬数据太多，所以 IO-aware 才是它快的根本原因。

10. LoRA 的数学原理是什么，为什么低秩增量足以适配很多任务

LoRA 的核心是假设任务微调所需的权重更新 (\Delta W) 不需要满秩，而可以近似为两个低秩矩阵乘积：

于是原始权重变成

训练时冻结 W，只学 (A,B)。这样参数量和显存占用显著下降。它之所以有效，通常不是因为真实更新严格低秩，而是因为很多下游任务相对预训练模型只需要在少数主方向上做分布修正，低秩子空间已经足够表达这类偏移。

import torch

d, k, r = 8, 6, 2
W = torch.randn(d, k)
A = torch.randn(r, k, requires_grad=True)
B = torch.randn

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

mcart

沈阳工业大学测试开发

这是问模型微调吗

点赞回复分享

发布于昨天 22:05 辽宁

哈哈哈，你是老六

门头沟学院大数据开发工程师

感觉问的还挺多的呢

点赞回复分享

发布于昨天 18:45 北京

04-13 18:28

广东工业大学 Unity3D客户端

面的有点心态崩了

简历挂，一面挂，二面挂。秒挂，横向几天挂，横向十几天挂怀疑自己是不是水平不行春招都要结束了，也没找到一份实习😭

点赞评论收藏

03-19 15:01

已编辑

同济大学算法工程师

百度大模型后训练一面

📍面试公司：百度 文心一言🕐面试时间：2026.03.18💻面试岗位：大模型RL后训练❓面试问题：自我介绍，教育背景，项目经历项目介绍，基于大语言模型的信号灯控制，问题是什么，如何结合熵，怎么评测，指标结果如何强化学习理论内容，trust-range和PPO的关系PPO是off-policy or on-policy? on-policy为什么会有importance sampling，采样的策略模型和要训练的策略模型有偏差，重要性采样加以修正PPO的clip在优势A 正/负时 限制上/下届，A为正限制上届，A为负限制下届PPO的损失函数怎么计算的？广义优势估计是怎么计算？GAE中lam...

查看17道真题和解析

点赞评论收藏

04-01 12:12

中北大学 Java

27届双非本简历

各位大佬好，我是27届双非本科软件工程专业的大三学生，最近在准备找实习，想麻烦各位前辈帮忙看看这份简历有什么问题，无论是技术栈描述、项目经验的表述还是整体排版，提前感谢大家的宝贵时间。tips:个人感觉篇幅是有点长的，但是又不知道从哪些地方下手，学习了大模型相关的知识

点赞评论收藏

昨天 14:42

北京大学 Java

哲学和马克思主义理论研究是为了筹集社会主义经费进行学术和科学研究

哲学和马克思主义理论研究是为了筹集社会主义经费进行学术和科学研究 看不见的存在的意义 迷失在黑夜中。看不见的东西有的时候听的见，听的见的声音有的时候看不见。哲学和马克思主义理论研究是为了筹集社会主义经费进行学术和科学研究。中国共产党领导的工人阶级思想政治就是通过借鉴苏联领导的改革方式。中国东北特别是黑龙江省哈尔滨市接连苏联俄罗斯当时的中国共产党的领导干部所可以借鉴的苏联领导的组织机构就是这样进行政治活动建设社会主义国家。当时这样建设的社会主义体制国家是最先进的。历史得到尊重后来才会懂得珍惜。   每个人每个集体都会改变，唯一不会改变的是你的初心。华南 程序员编程助手科技股份有限责任公司 正在招...

Java技术

点赞评论收藏

昨天 11:18

中山大学前端开发其它

leetcode是救过科技大厂的命吗

之前我就不明白为什么这么多科技厂执着于考算法题，工作上根本用不到这些东西，意义到底在哪？难道就是为了折磨求职者吗？去年听说Meta、英伟达要求45分钟做3道medium以上的题，真的离谱。我面了十几家公司，没有一家不考算法的，甚至有些小公司上来就是hard题，完全搞不懂。我觉得会不会做leetcode难题和技术水平、业务能力基本没啥关系。当时真心希望北美科技公司能放弃考leetcode。不过最近再看，情况好像真的在变。Meta在2025年调整了面试政策，算法题的权重明显下降。HackerRank的数据也显示，77%的开发者觉得现在的算法题跟实际工作脱节，65%的人希望能多考点实战相关的东西。Red Hat换了评估方式之后，现场面试直接砍掉了60%以上。连HackerRank自己都在推AI辅助的IDE，面试官不看你能不能默写代码，而是看你跟AI怎么协作——怎么提问、怎么判断AI给的代码对不对、怎么debug。GitHub、DuckDuckGo、Airtable这些公司已经开始用实操项目代替白板编程了。不是说算法完全没用，底层的数据结构、复杂度分析该懂还是得懂。但现在的趋势明显在往“你会不会干活”而不是“你会不会刷题”转。leetcode可能还没死，但它的权重确实在降。面试官终于开始意识到——能默写反转二叉树的人，不一定能写明白业务代码。

AI时代还有必要刷lee...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# AI时代还有必要刷leetcode吗？ #

28033次浏览 378人参与

# 大学生该如何认清当下的就业环境？ #

161170次浏览 862人参与

# 有哪些公司在面试时考察AICoding？ #

# 想从事Agent应该学习哪些技术？ #

高德 大模型算法开发 一面(暑期)

1. 自我介绍

2. 项目拷打

3. Perplexity 的定义、公式和真正的使用边界是什么

4. 为什么不同 tokenizer 下的 Perplexity 不能直接横向比较

5. 多头注意力真正带来的表达增益是什么，为什么不是简单并行几次注意力

6. 注意力分数为什么要除以\，不除会发生什么

7. BERT 的掩码机制和 Decoder-only 的因果掩码机制本质差异是什么

8. RoPE 为什么能编码相对位置信息，长上下文外推时又为什么会失真

9. FlashAttention 为什么快，真正减少的是什么复杂度

10. LoRA 的数学原理是什么，为什么低秩增量足以适配很多任务

全站热榜

创作者周榜

高德大模型算法开发一面(暑期)