大模型算法日常实习二面-字节
攒人品中~
1. 项目里最核心的贡献是什么?怎么评估效果?
2. 对比学习中如果负样本和正样本拉不开距离(或太像了),你会怎么修改损失函数或采样策略?
3. FlashAttention 原理:跟普通 Attention 的差异是什么?实现里 $QK^T$、Softmax、$PV$ 这几步是怎么落地的?
4. 分布式框架3D 并行与通信:怎么理解 DP/DDP?通信瓶颈一般卡在哪些环节?
5. 14B 模型,FP16 权重大概多大?训练时还要加哪些开销?如果用INT8 大概能省多少显存?
6. `torch.contiguous()` 是干嘛的?为什么推理阶段在意内存连续性?
7. 代码题:井字棋判胜:读取 txt 井字棋(3×3)状态,判断当前玩家是否获胜。
8. 代码题:交叉熵损失:解释原理并手写实现。
9. 代码题:线性回归 SGD:推导更新公式并手写实现。
1. 项目里最核心的贡献是什么?怎么评估效果?
2. 对比学习中如果负样本和正样本拉不开距离(或太像了),你会怎么修改损失函数或采样策略?
3. FlashAttention 原理:跟普通 Attention 的差异是什么?实现里 $QK^T$、Softmax、$PV$ 这几步是怎么落地的?
4. 分布式框架3D 并行与通信:怎么理解 DP/DDP?通信瓶颈一般卡在哪些环节?
5. 14B 模型,FP16 权重大概多大?训练时还要加哪些开销?如果用INT8 大概能省多少显存?
6. `torch.contiguous()` 是干嘛的?为什么推理阶段在意内存连续性?
7. 代码题:井字棋判胜:读取 txt 井字棋(3×3)状态,判断当前玩家是否获胜。
8. 代码题:交叉熵损失:解释原理并手写实现。
9. 代码题:线性回归 SGD:推导更新公式并手写实现。
全部评论
相关推荐
点赞 评论 收藏
分享
查看5道真题和解析