LLM大模型校招高频八股问题(攒人品
Transformer
1- Transformer 的完整编码器-解码器架构和工作流程(完整输入输出)?
2- Encoder 和 Decoder 分别适用于什么场景?
3- Multi-Head Attention的数学公式和计算过程
4- 为什么注意力计算要除以√d_k(缩放点积注意力的原因)
5- 为什么 Transformer 用 Layer Normalization
6- Layer Normalization 的位置和作用(Pre-LN vs Post-LN)
7- Encoder 的 self-attention mask 机制
8- Decoder 的 masked self-attention 原理
9- Transformer/MHA 的参数量与计算量
10- 多头注意力的"头"是什么意思?不同头是否学习到不同模式?
11- 位置编码的作用和实现方式(正弦余弦编码 vs 学习式编码),为什么要引入位置编码?
12- 你还了解哪些位置编码
13- Transformer 相较于 CNN, LSTM 等模型的优势在哪?
1- Transformer 的完整编码器-解码器架构和工作流程(完整输入输出)?
2- Encoder 和 Decoder 分别适用于什么场景?
3- Multi-Head Attention的数学公式和计算过程
4- 为什么注意力计算要除以√d_k(缩放点积注意力的原因)
5- 为什么 Transformer 用 Layer Normalization
6- Layer Normalization 的位置和作用(Pre-LN vs Post-LN)
7- Encoder 的 self-attention mask 机制
8- Decoder 的 masked self-attention 原理
9- Transformer/MHA 的参数量与计算量
10- 多头注意力的"头"是什么意思?不同头是否学习到不同模式?
11- 位置编码的作用和实现方式(正弦余弦编码 vs 学习式编码),为什么要引入位置编码?
12- 你还了解哪些位置编码
13- Transformer 相较于 CNN, LSTM 等模型的优势在哪?
全部评论
相关推荐

查看10道真题和解析