字节大模型算法工程师面经
自我介绍——5min
项目相关细节提问——5min(对项目不是很感兴趣)
项目相关技术提问——25min * 2面
(与之前的面经贴中重复的技术问题不在展示)
1. 了解 DeepSpeed 吗?训练时用 ZeRO 优化主要是解决啥问题?ZeRO 的三个阶段分别都是啥?
2. TP 或 PP 了解吗?
3. 并行训练时,如果模型参数量不大,怎么决定用 PP 还是 TP 策略?它们各自有啥好坏?
4. 如果用 TP=2 的策略,self-attention 层里的 QKV 矩阵具体是怎么切分的?
5. 用 TP 的时候,主要会发生哪些通信?不同的切分方式会改变通信行为吗?举个例子呗。
6. 讲讲 Flash Attention 的原理,矩阵 tiling 的过程说细一点,最好把 shape 也讲清楚。
手撕算法:经典接雨水+最长上升子序列