拼多多暑期实习二面
1. 介绍论文
2. Transformer结构
3. 注意力机制
4. 交叉熵
5. 实际微调采用怎么样的配置,如何选取合适的学习率、batch size等等
6. PPO(本来面试官想要深挖,但是我表示了自己不太擅长强化学习就没接着问了)
7. 注意力机制的优化有哪些(答:GQA、MLA、FlashAttn)
8. 算法题:模拟BPE的实现。追问有没有优化的方法(我写的太暴力了)。
面试官人很有耐心,一直在深入追问细节,意识到了自己很多不足的地方,感恩。
#发面经涨人品#
2. Transformer结构
3. 注意力机制
4. 交叉熵
5. 实际微调采用怎么样的配置,如何选取合适的学习率、batch size等等
6. PPO(本来面试官想要深挖,但是我表示了自己不太擅长强化学习就没接着问了)
7. 注意力机制的优化有哪些(答:GQA、MLA、FlashAttn)
8. 算法题:模拟BPE的实现。追问有没有优化的方法(我写的太暴力了)。
面试官人很有耐心,一直在深入追问细节,意识到了自己很多不足的地方,感恩。
#发面经涨人品#
全部评论

感觉问的似乎不多呢
相关推荐
点赞 评论 收藏
分享
查看6道真题和解析