字节大模型算法工程师面经

自我介绍——5min

项目相关细节提问——5min(对项目不是很感兴趣)

项目相关技术提问——25min * 2面

(与之前的面经贴中重复的技术问题不在展示)

1. 了解 DeepSpeed 吗?训练时用 ZeRO 优化主要是解决啥问题?ZeRO 的三个阶段分别都是啥?

2. TP 或 PP 了解吗?

3. 并行训练时,如果模型参数量不大,怎么决定用 PP 还是 TP 策略?它们各自有啥好坏?

4. 如果用 TP=2 的策略,self-attention 层里的 QKV 矩阵具体是怎么切分的?

5. 用 TP 的时候,主要会发生哪些通信?不同的切分方式会改变通信行为吗?举个例子呗。

6. 讲讲 Flash Attention 的原理,矩阵 tiling 的过程说细一点,最好把 shape 也讲清楚。

手撕算法:经典接雨水+最长上升子序列

全部评论
老哥有论文有实习吗
点赞 回复 分享
发布于 08-28 23:59 北京

相关推荐

评论
点赞
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务