京东推荐算法实习一面 攒人品
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.直接开始八股
2.Transformer 中为什么用LN不用BN
3.图像中 BN 是怎么用的
4.在 NLP 中如果句子长度不一致,用 BN 会有什么后果
5.给定三维矩阵bsz * seq_len * dim,BN和LN分别作用在哪个维度
6.已知bsz seq_len dim head,参数量是多少,和哪几个参数有关
7.带有多个注意力头的注意力机制计算过程
8.说出pytorch中维度变换的函数
9.显存OOM,参数,ZERO,vllm,梯度累积,优化器,混合精度
10.讲一下实习经历
11.长度外推技术
12.觉得自己做得最好的点是什么
13.使用华为的框架和显卡进行SFT有没有遇到什么问题
14.LongLoRA和LoRA的区别
15.算法题:返回第K大的数,要求比快排更快
1.直接开始八股
2.Transformer 中为什么用LN不用BN
3.图像中 BN 是怎么用的
4.在 NLP 中如果句子长度不一致,用 BN 会有什么后果
5.给定三维矩阵bsz * seq_len * dim,BN和LN分别作用在哪个维度
6.已知bsz seq_len dim head,参数量是多少,和哪几个参数有关
7.带有多个注意力头的注意力机制计算过程
8.说出pytorch中维度变换的函数
9.显存OOM,参数,ZERO,vllm,梯度累积,优化器,混合精度
10.讲一下实习经历
11.长度外推技术
12.觉得自己做得最好的点是什么
13.使用华为的框架和显卡进行SFT有没有遇到什么问题
14.LongLoRA和LoRA的区别
15.算法题:返回第K大的数,要求比快排更快
全部评论
相关推荐
查看6道真题和解析