大模型算法二面 技术面-minimax
#MiniMax求职进展汇总# 整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1.介绍实习项目时,重点讲你解决过最困难的问题以及最终的优化效果。
2.你在训练大模型时用过哪些分布式训练方案?
数据并行、模型并行、流水并行的区别是什么?
3.DeepSpeed 的 ZeRO-1 / ZeRO-2 / ZeRO-3 的核心差异是什么?
4.如果训练一个 70B 模型,如何估算单卡显存占用?
5.除了 ZeRO,你还了解哪些训练优化方法?
6.LoRA 的原理是什么?为什么低秩分解可以减少训练参数?
7.LoRA 中矩阵 A 和 B 为什么通常采用不同初始化方式?
8.手撕:实现 滑动窗口最大值
1.介绍实习项目时,重点讲你解决过最困难的问题以及最终的优化效果。
2.你在训练大模型时用过哪些分布式训练方案?
数据并行、模型并行、流水并行的区别是什么?
3.DeepSpeed 的 ZeRO-1 / ZeRO-2 / ZeRO-3 的核心差异是什么?
4.如果训练一个 70B 模型,如何估算单卡显存占用?
5.除了 ZeRO,你还了解哪些训练优化方法?
6.LoRA 的原理是什么?为什么低秩分解可以减少训练参数?
7.LoRA 中矩阵 A 和 B 为什么通常采用不同初始化方式?
8.手撕:实现 滑动窗口最大值
全部评论
考虑我司不 欢迎联系
相关推荐
查看24道真题和解析