字节大模型校招二面面经

实习介绍——5min
项目相关细节提问——5min
1. 了解 DeepSpeed 吗?训练时用 ZeRO 优化主要是解决啥问题?ZeRO 的三个阶段分别都是啥?
2. TP 或 PP 了解吗?
3. 并行训练时,如果模型参数量不大,怎么决定用 PP 还是 TP 策略?它们各自有啥好坏?
4. 如果用 TP=2 的策略,self-attention 层里的 QKV 矩阵具体是怎么切分的?
5. 用 TP 的时候,主要会发生哪些通信?不同的切分方式会改变通信行为吗?举个例子呗。
6. 讲讲 Flash Attention 的原理,矩阵 tiling 的过程说细一点,最好把 shape 也讲清楚。
手撕算法:经典接雨水+最长上升子序列
全部评论

相关推荐

纯真的河老师在喝茶:第一个是这个时间点岗位少,第二个是这个简历重复度太高了,10个有9个简历差不多的
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务