LLM大模型校招高频八股问题(攒人品

Transformer
1- Transformer 的完整编码器-解码器架构和工作流程(完整输入输出)?
2- Encoder 和 Decoder 分别适用于什么场景?
3- Multi-Head Attention的数学公式和计算过程
4- 为什么注意力计算要除以√d_k(缩放点积注意力的原因)
5- 为什么 Transformer 用 Layer Normalization
6- Layer Normalization 的位置和作用(Pre-LN vs Post-LN)
7- Encoder 的 self-attention mask 机制
8- Decoder 的 masked self-attention 原理
9- Transformer/MHA 的参数量与计算量
10- 多头注意力的"头"是什么意思?不同头是否学习到不同模式?
11- 位置编码的作用和实现方式(正弦余弦编码 vs 学习式编码),为什么要引入位置编码?
12- 你还了解哪些位置编码
13- Transformer 相较于 CNN, LSTM 等模型的优势在哪?
全部评论

相关推荐

三本咋了:觉得真的挺优秀的 实习title够了 ,字节实习跟agent不是很垂直 换个agent项目 差个机会,祈好运 ,有个教学类型的hello_agents 在github上面 感觉不太够用 (当然我还在学) ,你现在有好的项目了么,推荐一下呗
听劝,我这个简历该怎么改...
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务