美团秋招大模型算法凉经...
Q1:介绍transformer的位置编码,为什么这么设计,为什么可以达到位置编码的效果,编码了相对位置还是绝对位置;介绍RoPE
Q2:transformer的normalization,为什么用layernorm不用其他的;介绍RMSnorm
Q3:介绍self-attention;self-attention的改进;介绍encoder-decoder-attention;encoder中的self-attention和decoder中的self-attention有什么区别
Q4:训练过程中的梯度爆炸和梯度消失,怎么改进;softmax是否会遇到梯度爆炸和消失;transformer怎么处理梯度爆炸和梯度消失;后续新方法
Q5:介绍lora;为什么lora是有效的,只需要训练更少的参数而不是训练全参数
算法题:300. 最长递增子序列
Q2:transformer的normalization,为什么用layernorm不用其他的;介绍RMSnorm
Q3:介绍self-attention;self-attention的改进;介绍encoder-decoder-attention;encoder中的self-attention和decoder中的self-attention有什么区别
Q4:训练过程中的梯度爆炸和梯度消失,怎么改进;softmax是否会遇到梯度爆炸和消失;transformer怎么处理梯度爆炸和梯度消失;后续新方法
Q5:介绍lora;为什么lora是有效的,只需要训练更少的参数而不是训练全参数
算法题:300. 最长递增子序列
全部评论
哈人
相关推荐
点赞 评论 收藏
分享
快手成长空间 767人发布