AI Agent淘天实习一面 攒人品
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.请详细介绍一下Transformer的架构,包括Encoder和Decoder的区别?
2.解释LayerNorm和BatchNorm的区别,为什么Transformer中使用LayerNorm?
3.多头注意力机制的原理是什么?为什么要用多头而不是单头?
4.LLaMA的结构有什么特点?与标准Transformer有什么不同?
5.什么是位置编码?绝对位置编码和相对位置编码的区别是什么?
6.大模型训练中的灾难性遗忘是什么?有哪些解决方法?
7.大模型训练中数据量和数据质量哪个更重要?为什么?
8.DeepFM的原理是什么?FM部分如何降低计算复杂度?
9.你在项目中遇到过拟合的情况吗?是如何解决的?
10.手撕代码:重排链表(LeetCode 143)
1.请详细介绍一下Transformer的架构,包括Encoder和Decoder的区别?
2.解释LayerNorm和BatchNorm的区别,为什么Transformer中使用LayerNorm?
3.多头注意力机制的原理是什么?为什么要用多头而不是单头?
4.LLaMA的结构有什么特点?与标准Transformer有什么不同?
5.什么是位置编码?绝对位置编码和相对位置编码的区别是什么?
6.大模型训练中的灾难性遗忘是什么?有哪些解决方法?
7.大模型训练中数据量和数据质量哪个更重要?为什么?
8.DeepFM的原理是什么?FM部分如何降低计算复杂度?
9.你在项目中遇到过拟合的情况吗?是如何解决的?
10.手撕代码:重排链表(LeetCode 143)
全部评论
相关推荐
