字节大模型日常实习一面面经

整体感觉还是不错的,发一下问题供大家参考~
八股吟唱:
1、Pretrain、SFT、RLHF区别(目标、任务定位和解决的问题?)
2、为什么偏好对齐不能直接用偏好数据做 SFT,而用RL
3、Pretrain和 SFT 在优化目标上的区别
4、SFT的loss是什么,若target有10或100个token,loss如何计算
5、SFT 样本(含 prompt)与预训练样本在计算 Loss 时的区别,如何屏蔽prompt的Loss
6、控制生成多样性的参数有哪些?怎么控制的?
7、top-k与top-p 区别
8、除了贪心,还有哪些生成策略?
9、你对多模态的理解?
10、最近读了什么论文?论文的核心亮点是什么?
11、PPO和GRPO的结构区别,各自适用的场景?
12、DAPO、GSPO具体做了什么改进?
13、是否了解 Swift?DeepSpeed 与 Megatron 的区别

手撕算法:
交叉熵、Softmax、Self-Attention
力扣139题 Word Break变种
全部评论

相关推荐

面了一个多小时,整体感觉还不错,欢迎佬交流~1.zero1232.你有没有实际对比过普通 DDP 和 ZeRO-1?比如 4 卡情况下,把 optimizer state 或 gradient 切成 shard 之后,显存大概能省多少?3.CPU offload4.BF 16 和 FP 165.在 DDP 多卡训练 中,通常一个 epoch 的定义是:所有 GPU 协同遍历一次完整数据集,且每个样本在该 epoch 内只被采样一次。但在实际训练中,我们往往是 按 step 数控制训练与保存 checkpoint 的,比如每 5000 step 保存一次模型,这样 checkpoint 很可能落在 某个 epoch 的中间。在恢复训练时,我们一般可以恢复 model optimizer lr step,但 DataLoader / Sampler 本身是无状态的,不会自动恢复到 epoch 中间的位置。在从一个 epoch 中间的 checkpoint 恢复训练时,有没有办法保证数据采样能够“无缝衔接”,继续完成当前 epoch,而不是重新打乱或重复采样数据?6.当 checkpoint 保存发生在 epoch 中间时,Trainer 是否能正确恢复 DataLoader 的采样状态?如果不能,工程上通常如何保证 resume 后的数据连续性?你是怎么实现的,是否用了 Accelerate或者huggingface 的Trainer7.DDP中当同时涉及 DataLoader 和 Sampler 时,shuffle 应该由哪一层来负责?8.PyTorch 的 DistributedSampler 内部是如何根据 num_replicas 和 rank 生成每个进程各自的数据 index 列表的?它如何在不进行进程间通信的前提下,确保多进程训练时样本划分互不重叠且覆盖完整数据集?9.GQA10.RMSNorm和LN11.在实际训练系统中,从吞吐量和资源利用的角度考虑,tokenization 更合理的放置位置是在 Dataset/DataLoader 阶段,还是作为模型 forward 前的一部分?12.手撕省份数量
查看11道真题和解析
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务