04-28 09:22 华为_系统工程师

发布于上海

关注

第 4 题：注意力掩码（Attention Mask）在训练与推理中的使用

题目

什么是注意力掩码（Attention Mask）？在训练和推理中分别如何使用？

一、什么是注意力掩码？为什么需要？

注意力掩码是在算注意力权重之前，对 logits（即 $QK^\top$ 缩放后的 scores）做遮挡，让某些位置在 softmax 之后的权重变成 0，这样模型就不会从这些位置读取信息。

两种最常见用法：

Padding mask：把 padding 位置遮掉。batch 里序列长度不一时会 pad 到同一长度，pad 本身没有语义，若参与注意力会干扰模型，所以要对 pad 位置 mask。
Causal mask（因果掩码）：把未来位置遮掉。自回归语言模型在预测第 $t$ 个 token 时，只能看到 1 到 $t-1$ ，不能看到 $t$ 及以后，否则就“作弊”了。所以对 $j > i$ 的 $(i,j)$ 要 mask，保证位置 $i$ 只能注意 $j \le i$ 。

面试常问：“训练时为什么也要 causal mask？”——因为训练时虽然一次能看到整句，但我们要模拟“逐 token 生成”的分布，每个位置只能基于之前的 token 预测下一个，这样训练和推理一致，否则推理时模型没见过“看到未来”的情况会崩。

二、实现方式（必须能说清）

在 softmax 之前，对要屏蔽的位置在 scores 上加一个很大的负数（如 $-\infty$ 或 $-10^9$ ），softmax 后这些位置就接近 0：

\mathrm{scores}_{i,j} = \frac{Q_i K_j^\top}{\sqrt{d_k}} + M_{i,j},\qquad A = \mathrm{softmax}(\mathrm{scores})

$M_{i,j} = 0$ ：不遮挡，正常参与注意力。
$M_{i,j} = -\infty$ （或 $-10^9$ ）：遮挡，softmax 后权重≈0。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

Ai Agent：面试300问文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造，适配校招、社招全场景，覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题，全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域，拆解考点底层逻辑，分享一线实战经验，助你一站式通关高薪面试。

全部评论

推荐最新楼层

04-29 19:39

广西大学算法工程师

赛意信息社招一面

社群小伙伴分享的社招面经 小伙伴说 基本上都是在问代码细节 , 我后来问他什么岗位没回 我去翻了翻官网招聘没翻到AI相关的岗位, 不知道在哪个平台投的1. 自我介绍2. 你们的工作流是怎么实现的？答案：我们的工作流不是让大模型每次自由发挥，而是做成了状态机加任务编排。用户输入进来后，先经过意图识别，判断是知识问答、文档检索、代码分析、任务执行还是报告生成。然后进入 planner，planner 生成一个结构化计划，比如需要调用哪些工具、是否需要检索、是否需要用户补充信息。每一步执行后都会把结果写入状态，再由下一步读取状态继续执行。工作流里最关键的是状态管理和失败恢复。比如一个任务需要先检索文...

AI-Agent面试实战...

点赞评论收藏

分享

04-14 16:26

门头沟学院 Java

你觉得哪个项目技术点最多？秒杀里用 Redis 预扣库存和 MQ 异步下单后，还能做哪些优化？无锁队列为什么能提升性能？无锁队列的底层是怎么实现的？CAS 和内存屏障在无锁队列里起什么作用？环形缓冲区相比普通阻塞队列有什么优势？如果服务端广播失败怎么办？你项目里哪些地方能体现高并发处理能力？你怎么证明这些优化真的有效？全是项目，没有八股，追问比较深

查看9道真题和解析

点赞评论收藏

分享

不愿透露姓名的神秘牛友

04-15 09:06

#工作作息：五天八小时#发展前景：外包（已拒）

中国汽研（重庆）底盘调教工程师 8Kx13-14 本科海归

点赞评论收藏

分享

04-12 13:21

长沙理工大学 Java

计算机研0求助帖

本人调剂双非研上岸，已被春招结局吓哭，现求救双非研做Agent开发有出路吗？

双非应该如何逆袭？

点赞评论收藏

分享

04-13 17:13

门头沟学院 Java

2026春招武汉研锶科技有限公司

投递Java开发（11-18k）线上面试：先是笔试，腾讯会议打开摄像头拍到手。给我了一个题目文档，然后自己准备纸笔手写答案，限时一个小时。写完之后拍照发到面试群。然后是专业面试，面试官也会开摄像头（腾讯会议）。聊一些简历上的项目与一些相关的，难度不大。技术面面试官说到了，每个月要自由选择加班20小时，每天6点下班，7点之后算加班，而且公司是大小周。基本周一到周五平均每天加班一小时，如果项目急应该还会有隐形加班。结束之后最后的hr面没等到，等了一个多小时没有任何消息。后续第二天问hr面哪时候，hr说没有后续面试，面试结果3-5工作日告知。然后后续也没有任何消息，hr太忙了吧哈哈哈哈。哦对，本人期望工资14k，可能也太大胆了！

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

快手

27届实习超多转正机会

联宝科技

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果春招能重来，我会___ #

24296次浏览 255人参与

# 刚入职就____，这样正常吗？ #

144651次浏览 696人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

48389次浏览 581人参与

# 这个offer值得去吗？ #

23992次浏览 190人参与

# 有深度的简历长什么样？ #

59257次浏览 756人参与

# 除了线上，还能去哪些地方投简历 #

12914次浏览 121人参与

# 在爱玛，骑向未来 #

15604次浏览 339人参与

# 字节开奖 #

153960次浏览 722人参与

# 上班苦还是上学苦呢？ #

345903次浏览 2076人参与

# 你见过最离谱的招聘要求是什么？ #

281248次浏览 1886人参与

# 实习怎么做才有更好的产出 #

50339次浏览 461人参与

# 今年形式下双非本找得到工作吗 #

329183次浏览 1776人参与

# 我的秋招“寄”录 #

476774次浏览 3065人参与

# 大学四年该怎么过，才不算浪费时间？ #

24047次浏览 108人参与

# 字节求职进展汇总 #

1852268次浏览 15446人参与

# 薪资爆料 #

423524次浏览 2228人参与

# 秋招想进国企该如何准备 #

146886次浏览 687人参与

# 双非应该如何逆袭？ #

589788次浏览 6415人参与

# 影石Insta360求职进展汇总 #

190525次浏览 1386人参与

# 双非本科求职如何逆袭 #

1652615次浏览 13103人参与

# 简历上的经历如何包装 #

294091次浏览 4121人参与

# 非技术投递记录 #

732262次浏览 6955人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务