腾讯混元大模型算法二面-实习面经
1.过实习和论文
2.之前实习用 DeepSpeed 微调过 Qwen2-72B,于是面试官问了 ZeRO-1,ZeRO-2,ZeRO-3 三个模式的区别
3.当时你用 DeepSpeed ZeRO-3 来微调 Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存
4.除了 DeepSpeed,还用过其他的什么优化方法吗
5.我看你也用到了 LORA,知道 LORA 的原理吗,A和 B两个矩阵怎么初始化,有了解过其他的初始化方法吗
6.对 RLHF 了解的多吗
7.代码:3.无重复字符的最长子串
2.之前实习用 DeepSpeed 微调过 Qwen2-72B,于是面试官问了 ZeRO-1,ZeRO-2,ZeRO-3 三个模式的区别
3.当时你用 DeepSpeed ZeRO-3 来微调 Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存
4.除了 DeepSpeed,还用过其他的什么优化方法吗
5.我看你也用到了 LORA,知道 LORA 的原理吗,A和 B两个矩阵怎么初始化,有了解过其他的初始化方法吗
6.对 RLHF 了解的多吗
7.代码:3.无重复字符的最长子串
全部评论
相关推荐

查看10道真题和解析