昨天 11:58 吉林农业大学算法工程师发布于河北

关注

亚信科技大模型开发二面

1. 写一下 attention 公式，代码实现一下

attention 的公式是：

计算过程就是三步：先算 (Q) 和 (K) 的相似度分数，再做缩放，然后过 softmax 得到权重，最后用这个权重对 (V) 加权求和。

import numpy as np

def softmax(x):
    x = x - np.max(x, axis=-1, keepdims=True)
    exp_x = np.exp(x)
    return exp_x / np.sum(exp_x, axis=-1, keepdims=True)

def attention(Q, K, V):
    dk = Q.shape[-1]
    scores = np.matmul(Q, K.T) / np.sqrt(dk)
    weights = softmax(scores)
    output = np.matmul(weights, V)
    return output

Q = np.array([[1.0, 0.0, 1.0]])
K = np.array([[1.0, 0.0, 1.0],
              [0.0, 1.0, 0.0]])
V = np.array([[1.0, 2.0],
              [3.0, 4.0]])

print(attention(Q, K, V))

2. 训练时为什么要 mask，推理时也需要吗？两处有什么区别？推理时的 sequence length 和训练时一样吗？

训练时要 mask，主要是为了防止模型看到未来信息。像自回归语言模型，预测当前位置时，只能看当前 token 前面的内容，不能偷看后面的标准答案。所以训练时会加一个下三角 mask，也叫 causal mask。

推理时也需要这个约束。因为推理本质上也是一个一个 token 往后生成，当前时刻只能利用已经生成的内容，不能看到未来。只是训练时一般是整段并行计算，推理时是逐步生成，所以实现形式上看起来不太一样，但本质一样，都是因果 mask。

两者区别主要在这里：

训练时：输入是一整段已知文本，靠 mask 保证“只能看前文”
推理时：前文是已经生成出来的内容，本身就天然满足从左到右生成，但底层 attention 依然遵守因果约束

推理时的 sequence length 不一定和训练时一样。训练时通常会设一个最大长度，比如 512、1024、2048。推理时输入可能比训练短很多，也可能接近训练上限。但一般不能超过模型本身支持的最大上下文长度，否则要么报错，要么效果明显下降。

3. Transformer 和传统 seq2seq 模型有什么区别？

传统 seq2seq 一般是 RNN、LSTM 这类 Encoder-Decoder 结构。输入一个序列，编码成隐状态，再由解码器一步一步生成输出。

Transformer 最大的不同，是它不用循环，而是靠 self-attention 建模序列关系。

传统 seq2seq 的特点是按时间步顺序处理，前面的信息要一层层传到后面，所以并行性差，序列长了以后长期依赖也比较难学。Transformer 里每个位置都可以直接和其他位置做 attention，更容易建模长距离依赖，而且训练时可以并行，所以效率更高。

简单说：

传统 seq2seq：靠循环，顺序计算
Transformer：靠 attention，并行计算

这也是为什么后面的大模型基本都建立在 Transformer 上。

5. attention 中 softm

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

03-10 15:26

山东建筑大学测试工程师

26届好焦虑啊

两段实习……春招好冷淡啊，投了一大堆，约面俩，都过了十多天没动静，其它也没动静，boss已读不回哎，怎么办啊，焦虑死了……

点赞评论收藏

分享

03-09 13:24

青岛工学院测试开发

面试又没啦？？？

本来下午都要面试了，提前一周约好了面试，现在有把我踹了？？？真服了

点赞评论收藏

分享

03-06 18:20

门头沟学院 Java

26双非本春招要凉凉了吗

简历求拷打，有没有大佬给点建议😭实习经历不太会写，大部分都是做业务功能的没有很强的技术点😟

黑色巴基：实习这么久没转正吗。不过你这个是美的还是美云？

点赞评论收藏

分享

03-12 21:28

中国矿业大学（北京）人工智能

字节后端面试

hr加微信找上来说我简历过了约面试，但是面试又是全月可约。我也没有后端经验啊，做的都是大模型算法相关的，是不是kpi面。有大佬可以分析一下么？

今天你投了哪些公司？

点赞评论收藏

分享

03-12 09:31

腾讯_微信事业部_算法工程师(准入职员工)

已经拿到offer了，没什么感觉，但是金三银四确实开始了，最近又陆陆续续有公司打电话和我约面试，都拒绝但是把JD推给学弟学妹们了。现在确实是春招的好时机！看好多公司都发布了超级多的岗位，身边同学也在面呀面，希望大家都有好运！

你感受到金三银四了嘛？

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你感受到金三银四了嘛？ #

59385次浏览 557人参与

# 美团笔试 #

672235次浏览 4395人参与

# 虽然0面试，但今天___，夸夸自己 #

7068次浏览 151人参与

# 拼多多工作体验 #

48960次浏览 306人参与

# 春招 / 实习投递，你最焦虑的一件事 #

46766次浏览 930人参与

# 简历无回复，你会继续海投还是优化再投？ #

143345次浏览 886人参与

# 蚂蚁集团笔试 #

2374次浏览 17人参与

12321次浏览 120人参与

# 美团秋招笔试 #

193172次浏览 1047人参与

# 今天你投了哪些公司？ #

114065次浏览 2155人参与

# 软开人，说说你的烦心事 #

66565次浏览 399人参与

# AI岗位暴涨12倍，你会转AI赛道吗？ #

2947次浏览 67人参与

# 携程笔试 #

121414次浏览 742人参与

# 找工作，你都让AI帮你做什么？ #

5526次浏览 195人参与

# 刚工作的你，踩过哪些坑？ #

4957次浏览 112人参与

# 材料人，你最希望上岸的是？ #

18198次浏览 67人参与

# 为了去实习，我赌上了___ #

68873次浏览 385人参与

# 哪一刻你对工作祛魅了？ #

16837次浏览 169人参与

# 如果给AI员工评绩效，我的答案是…… #

6826次浏览 154人参与

# 硬件应届生薪资是否普遍偏低？ #

106360次浏览 596人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务