腾讯混元大模型算法二面-实习面经

1.过实习和论文
2.之前实习用 DeepSpeed 微调过 Qwen2-72B,于是面试官问了 ZeRO-1,ZeRO-2,ZeRO-3 三个模式的区别
3.当时你用 DeepSpeed ZeRO-3 来微调 Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存
4.除了 DeepSpeed,还用过其他的什么优化方法吗
5.我看你也用到了 LORA,知道 LORA 的原理吗,A和 B两个矩阵怎么初始化,有了解过其他的初始化方法吗
6.对 RLHF 了解的多吗
7.代码:3.无重复字符的最长子串
全部评论

相关推荐

黑皮白袜臭脚体育生:五宿大战是吧,死去的记忆还在攻击我
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务