大模型算法日常实习二面-字节

攒人品中~
1.  项目里最核心的贡献是什么?怎么评估效果?
2.  对比学习中如果负样本和正样本拉不开距离(或太像了),你会怎么修改损失函数或采样策略?
3.  FlashAttention 原理:跟普通 Attention 的差异是什么?实现里 $QK^T$、Softmax、$PV$ 这几步是怎么落地的?
4.  分布式框架3D 并行与通信:怎么理解 DP/DDP?通信瓶颈一般卡在哪些环节?
5.  14B 模型,FP16 权重大概多大?训练时还要加哪些开销?如果用INT8 大概能省多少显存?
6.  `torch.contiguous()` 是干嘛的?为什么推理阶段在意内存连续性?
7.  代码题:井字棋判胜:读取 txt 井字棋(3×3)状态,判断当前玩家是否获胜。
8.  代码题:交叉熵损失:解释原理并手写实现。
9.  代码题:线性回归 SGD:推导更新公式并手写实现。
全部评论

相关推荐

评论
点赞
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务