03-29 23:55 门头沟学院机器学习发布于浙江

关注

LLM面试题： Transformer

Q:请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列?

难度:⭐⭐

公司:字节、阿里、腾讯(高频)

算法岗回答要点:

自注意力机制原理
- 输入序列通过三个线性变换得到 Q(Query)、K(Key)、V(Value)
- 计算注意力分数:scores = QK^T / √d_k
- Softmax 归一化得到注意力权重
- 加权求和:output = softmax(scores) · V
数学推导
```
Attention(Q,K,V) = softmax(QK^T/√d_k)V
```
- 为什么除以√d_k?防止点积过大导致梯度消失
- Multi-Head 机制:并行计算多个注意力头,捕获不同子空间的特征
vs RNN 的优势
- 并行计算:RNN 必须顺序计算,Transformer 可以并行处理整个序列
- 长距离依赖:RNN 存在梯度消失/爆炸,Transformer 通过直接注意力机制解决
- 计算复杂度:序列长度 n,RNN 为 O(n),Self-Attention 为 O(n²)但可并行

开发岗回答要点:

理解注意力机制的作用
- 模型能自动关注序列中重要的部分
- 类似于"加权平均",权重由模型学习得到
工程实现要点
- 使用成熟框架(PyTorch/TensorFlow)内置的 Attention 层
- 注意 Attention Mask 的使用(Padding mask、Causal mask)
- 推理时可以使用 KV Cache 加速
优化技巧
- Flash Attention:减少显存占用,加速计算
- Multi-Query Attention(MQA):共享 K/V,降低显存

延伸问题:

Multi-Head Attention 的作用是什么?
- 答:类似CNN的多通道,不同head关注不同特征子空间
Self-Attention vs Cross-Attention 的区别?
- 答:Self-Attention 的 Q/K/V 来自同一序列;Cross-Attention 的 Q 来自一个序列,K/V 来自另一个序列(如 Encoder-Decoder)

面试技巧:

开场先说核心公式,展示理论功底
画图说明计算流程(Q/K/V 矩阵乘法)
主动提及优化技术(Flash Attention)加分

#AI求职记录#

全部评论

推荐最新楼层

04-15 14:48

华中科技大学全栈开发

Agent学习之Harness Engineering

AI世界变幻之快，没几天就有新概念了，最近热讨论的是Harness Engineering（驾驭工程）这个词。OpenAI、Anthropic、Martin Fowler……一线的公司和技术大佬都在讨论它。很多科普文章会告诉你：Harness 就是给 AI 设边界、分步骤、做检查,你平时用 Claude Code 时已经在做了用最简洁的话说：Harness 是包裹在大模型外面的"执行与治理系统"。公式就是 Agent = Model + Harness。那么我们给最近爆火的 Harness Engineering 一个清晰直白的比喻：想象你面前有一匹又快又壮的马。你想让它帮...

想从事Agent应该学习...

点赞评论收藏

分享

04-19 23:53

门头沟学院销售工程师

拿到offer和回顾朋友圈时…

啊这是能说的吗，其实我觉得实习真的蛮有意思的爸妈还给生活费付酒店钱…自己赚多少花多少…工作时哥哥姐姐们都很照顾你…团建什么的还能见见世面

哪一刻你突然觉得实习“有...

点赞评论收藏

分享

05-09 13:55

用友网络_Java开发

实习第一天，电脑开机蓝屏三次，IT 小哥过来重装系统时嘟囔“你这新机子咋比我用了五年的还破”。下午被拉进项目群，leader 甩给我一个“简单”的数据库查询任务。我吭哧吭哧写了半小时 SQL，执行前发现连的是测试库，而我在里面给自己复制了一张三百兆的表，把磁盘塞满了。

实习第一天，你在干什么

点赞评论收藏

分享

04-20 14:41

东北林业大学 Python

阿里 ai应用研发工程师一面（60min）

简单自我介绍项目经历拷打实习经历拷打RAG,agent的八股(chunking, ReAct等)大模型的八股（全参微调，LoRA，温度设置等）Redis,SQL,（缓存穿透，索引等等）接着追问了很多实习和项目的细节，agent怎么搭的，当时你是怎么实现的rag，数据是怎么获取，处理。缓存机制怎么实现的，上下文，记忆怎么处理的等等。接着问了几个场景：如果让你实现一个xxxx的场景，你会怎么做（提了这个句式的问题有2，3个，大概都和生产级的，高并发的场景有关）最后还有16分钟左右，发来一个 Ai coding,贡献屏幕做（给的代码平台的ai 很慢，最后看到时间差不多了就让说了一下思路）结束前问：你有没有投别的公司，有没有在别的流程之中（回答了有几个大厂中小厂也有--------感觉回答错了，面试官有点惊讶的样子）然后又问了你在读研几，什么时候毕业，最近在干什么等。最后反问本人是本硕末流211---感觉前面答得还行，最后可能让面试官觉得我是海投的了，感觉要凉

查看12道真题和解析

点赞评论收藏

分享

04-23 23:28

广东工业大学 C++

之前没有实习，下周就要去第一段实习了，开发流程啥的都不清楚，怕自己上手太慢了怎么办， 。 。 。 

嵌入式的小白：淡定，都是这么一点一点过来的，加油

点赞评论收藏

分享

评论

1

2

招聘动态

完美世界

拍了拍你并邀请你投递

上海人工智能实验室

2026年春季校园招聘

27届校招宝典

快手

27届实习超多转正机会

海信集团

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届春招投递记录 #

17651次浏览 127人参与

# 金融银行求职进展汇总 #

363017次浏览 1979人参与

# 我的求职总结 #

487994次浏览 6878人参与

# 拼多多工作体验 #

62992次浏览 439人参与

# 27届实习投递记录 #

86682次浏览 917人参与

# 宁德时代求职进展汇总 #

188430次浏览 710人参与

# 我是XXX，请攻击我最薄弱的地方 #

96878次浏览 642人参与

# 职场吐槽大会 #

361675次浏览 2308人参与

# 牛油的搬砖plog #

207881次浏览 1337人参与

# HR最不可信的一句话是__ #

37052次浏览 186人参与

# 美团秋招笔试 #

219045次浏览 1197人参与

# 什么专业适合考公 #

73661次浏览 479人参与

# AI让海力士市值突破9000亿美元 #

10326次浏览 126人参与

# 小厂实习有必要去吗 #

95326次浏览 454人参与

# 毕业后不工作的日子里我在做什么 #

274411次浏览 1743人参与

# 面试常问题系列 #

311273次浏览 4803人参与

# Vibe Coding 会干掉初级岗位吗？ #

52012次浏览 332人参与

# AI Coding实战技巧 #

32198次浏览 400人参与

# 这些公司卡简历很严格 #

108149次浏览 497人参与

# 找工作中的意难平 #

1100451次浏览 6526人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务