03-29 23:55 门头沟学院机器学习发布于浙江

关注

LLM面试题： Transformer

Q:请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列?

难度:⭐⭐

公司:字节、阿里、腾讯(高频)

算法岗回答要点:

自注意力机制原理
- 输入序列通过三个线性变换得到 Q(Query)、K(Key)、V(Value)
- 计算注意力分数:scores = QK^T / √d_k
- Softmax 归一化得到注意力权重
- 加权求和:output = softmax(scores) · V
数学推导
```
Attention(Q,K,V) = softmax(QK^T/√d_k)V
```
- 为什么除以√d_k?防止点积过大导致梯度消失
- Multi-Head 机制:并行计算多个注意力头,捕获不同子空间的特征
vs RNN 的优势
- 并行计算:RNN 必须顺序计算,Transformer 可以并行处理整个序列
- 长距离依赖:RNN 存在梯度消失/爆炸,Transformer 通过直接注意力机制解决
- 计算复杂度:序列长度 n,RNN 为 O(n),Self-Attention 为 O(n²)但可并行

开发岗回答要点:

理解注意力机制的作用
- 模型能自动关注序列中重要的部分
- 类似于"加权平均",权重由模型学习得到
工程实现要点
- 使用成熟框架(PyTorch/TensorFlow)内置的 Attention 层
- 注意 Attention Mask 的使用(Padding mask、Causal mask)
- 推理时可以使用 KV Cache 加速
优化技巧
- Flash Attention:减少显存占用,加速计算
- Multi-Query Attention(MQA):共享 K/V,降低显存

延伸问题:

Multi-Head Attention 的作用是什么?
- 答:类似CNN的多通道,不同head关注不同特征子空间
Self-Attention vs Cross-Attention 的区别?
- 答:Self-Attention 的 Q/K/V 来自同一序列;Cross-Attention 的 Q 来自一个序列,K/V 来自另一个序列(如 Encoder-Decoder)

面试技巧:

开场先说核心公式,展示理论功底
画图说明计算流程(Q/K/V 矩阵乘法)
主动提及优化技术(Flash Attention)加分

#AI求职记录#

全部评论

推荐最新楼层

04-01 14:22

哈尔滨工业大学（深圳） golang

字节AI应用后端开发一二三面面经

一面 - 自我介绍- 大模型和传统机器学习 / 深度学习有什么区别？- Agent 里的工具调用是怎么实现的？- 用 LangChain / Agent 框架时，一般要配哪些东西？- ReAct 是怎么用的？- ReAct 有什么缺点？- ReAct 的成功率怎么看？- 你用 ReAct 做过什么任务？- Plan-Exec 要解决什么问题？- 调 prompt 有什么规范？- 你调 prompt 遇到过什么 case？- 最近看过哪些前沿框架 / 记忆架构？- 你在记忆上有什么实践？- Skill 和上下文管理是什么关系？- 现场编码：链表分组反转 / 区间反转- 协程和线程区别是什么？- 协程中断和线程中断的区别？- Go 的 GC 做过什么优化？- GC 暂停时间一般多少？看过指标吗？- 数据库索引为什么用 B+ 树？- 堆的底层存储结构是什么？- channel 里有锁吗？实现看过吗？- 有缓冲 channel 用在什么场景？- 什么场景会出现 goroutine 泄漏？- 什么场景会用协程池 / worker pool？二面忘记录音了- 自我介绍- 项目拷打- 对redis的理解- 排序算法- 索引- 手撕 LC 33三面- 实习拷打- 手撕 LC 301三面后第二天OC

点赞评论收藏

分享

03-27 22:09

东北农业大学 Java

http 请求报文的结构

一个完整的 HTTP 请求由 4 部分组成：请求行（Request Line）请求头（Request Headers）空行（CRLF）请求体（Request Body）1. 请求行（必背）格式：请求方法 + URL + 协议版本示例： GET /index.html HTTP/1.1 请求方法：GET、POST、PUT、DELETE、HEAD、OPTIONS 等URL：请求资源路径HTTP 版本：HTTP/1.1、HTTP/2、HTTP/32. 请求头（Header）一系列键值对，告诉服务器一些附加信息。常见请求头：Host：域名User-Agent：浏览器 / 客户端信息Content-Ty...

点赞评论收藏

分享

03-09 12:14

门头沟学院前端工程师

一图2026年AI全栈技术选型，一图搞明白

点赞评论收藏

分享

03-21 16:37

门头沟学院 Java

Redis一致性哈希，与哈希槽分区有什么区别

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花一致性哈希和哈希槽分区都是Redis解决单机存储瓶颈、实现分布式分片的核心方案，但二者的设计理念、实现层级、运维特性差异极大：一致性哈希是早期客户端/第三方代理层的通用分片算法，哈希槽是Redis Cluster官方原生的集群分片方案，适配场景和落地成本完全不同。下面先拆解各自原理，再做全方位对比。一、一致性哈希（Consistent Hashing）核心原理一致性哈希是一种通用的分布式哈希算法，并非Redis专属，早期Redis分布式架构（如Codis、Twemproxy）...

点赞评论收藏

分享

03-31 21:47

东南大学 C++

愚人节血战阿里

吓哭了，明天被面试塞满了

彭于晏前来求offe...：吓晕了

点赞评论收藏

分享

评论

点赞

1

招聘动态

客路2026产研校招

AI网申助手

网申字段一键填写

百度

2027届暑期实习

招商银行数字金融训练营

火热报名中

新华三

2026届春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

27届校招宝典

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得大几开始实习最合适？ #

15431次浏览 173人参与

# uu们，春招你还来吗？ #

52764次浏览 306人参与

# 招商银行数字金融训练营 #

104457次浏览 881人参与

# 面试被问到不会的问题，你怎么应对？ #

12879次浏览 164人参与

# 面试中，你被问过哪些奇葩问题？ #

92309次浏览 892人参与

# Claude Code泄露源码 #

7367次浏览 111人参与

# 厦门银行科技岗值不值得投 #

13785次浏览 311人参与

# 恒生电子笔试 #

17576次浏览 135人参与

# 2023年不发年终奖的公司盘点 #

30316次浏览 174人参与

# 你都用vibe coding做过什么？ #

9418次浏览 392人参与

# AI Coding实战技巧 #

7932次浏览 174人参与

# 26届春招投递记录 #

1505次浏览 24人参与

# 你现在一天AI几次？ #

6634次浏览 87人参与

# 七猫笔试 #

6365次浏览 46人参与

# 做完笔试后你收到面试了吗？ #

14401次浏览 165人参与

# 四大天坑是哪四家？ #

111197次浏览 241人参与

# 你见过哪些招聘隐形歧视？ #

11168次浏览 98人参与

# 机械人你知道哪些单休企业 #

101834次浏览 476人参与

# Vibe Coding 会干掉初级岗位吗？ #

12429次浏览 168人参与

# 大厂实习和小厂实习最大的区别是什么？ #

25314次浏览 194人参与

# 如果人生可以debug你会改哪一行? #

5708次浏览 102人参与

# 网易游戏雷火笔试 #

4026次浏览 66人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务