实习面经-字节大模型算法二面
感觉自己好菜、面试很难,还是要多多练习
1.大模型相关经历深挖:你项目里最核心的贡献是什么,怎么验证有效
2.对比学习 loss:负样本和正样本拉不开/太像了,你会怎么改损失或采样
3.FlashAttention 跟普通 attention 的差异?实现里 QK^T、softmax、PV 这几步怎么落
4.3D 并行里 DP/DDP你怎么理解;实际落地时通信瓶颈一般卡在哪些环节
5.14B:FP16 权重大概多大;训练还要加哪些;INT8 大概能省多少
6.torch.contiguous() 干嘛的?推理为什么在意连续性
7.代码:读 txt 井字棋(3×3),判断当前玩家是否获胜
8.交叉熵损失:解释/怎么写
9.线性回归用 SGD:更新公式怎么推/怎么写
1.大模型相关经历深挖:你项目里最核心的贡献是什么,怎么验证有效
2.对比学习 loss:负样本和正样本拉不开/太像了,你会怎么改损失或采样
3.FlashAttention 跟普通 attention 的差异?实现里 QK^T、softmax、PV 这几步怎么落
4.3D 并行里 DP/DDP你怎么理解;实际落地时通信瓶颈一般卡在哪些环节
5.14B:FP16 权重大概多大;训练还要加哪些;INT8 大概能省多少
6.torch.contiguous() 干嘛的?推理为什么在意连续性
7.代码:读 txt 井字棋(3×3),判断当前玩家是否获胜
8.交叉熵损失:解释/怎么写
9.线性回归用 SGD:更新公式怎么推/怎么写
全部评论
相关推荐