京东推荐算法 实习一面 攒人品
继续来分享下之前的面经~
1.项目拷打
2.Transformer 中为什么用LN不用BN
3.图像中 BN 是怎么用的
4.在 NLP 中如果句子长度不一致,用 BN 会有什么后果
5.给定三维矩阵bsz * seq_len * dim,BN和LN分别作用在哪个维度
6.已知bsz seq_len dim head,参数量是多少,和哪几个参数有关
7.带有多个注意力头的注意力机制计算过程
8.说出pytorch中维度变换的函数
9.显存OOM,参数,ZERO,vllm,梯度累积,优化器,混合精度
10.讲一下实习经历
11.长度外推技术
12.觉得自己做得最好的点是什么
13.使用华为的框架和显卡进行SFT有没有遇到什么问题
14.LongLoRA和LoRA的区别
1.项目拷打
2.Transformer 中为什么用LN不用BN
3.图像中 BN 是怎么用的
4.在 NLP 中如果句子长度不一致,用 BN 会有什么后果
5.给定三维矩阵bsz * seq_len * dim,BN和LN分别作用在哪个维度
6.已知bsz seq_len dim head,参数量是多少,和哪几个参数有关
7.带有多个注意力头的注意力机制计算过程
8.说出pytorch中维度变换的函数
9.显存OOM,参数,ZERO,vllm,梯度累积,优化器,混合精度
10.讲一下实习经历
11.长度外推技术
12.觉得自己做得最好的点是什么
13.使用华为的框架和显卡进行SFT有没有遇到什么问题
14.LongLoRA和LoRA的区别
全部评论
相关推荐
03-19 11:57
南京信息工程大学 Java 点赞 评论 收藏
分享
查看5道真题和解析