高德大模型 27实习 一面

1. 介绍一下项目
2. 多头注意力机制的计算复杂度是多少?
3.LoRA 的核心思想是什么?
4. GRPO 训练时 KL 散度控制得怎么样?5. SFT 阶段如何避免对padding token 计算 loss ?
6.训练 SFT 模型时 loss 出现剧烈震荡,你是如何诊断并解决的?
7. Transformer 中为何使用 LayerNorm 而非 BatchNorm ?
8. Transformer 里LayerNorm 放在 Attention 前还是后?有什么区别?
9. logprobs 在一致性奖励中起什么作用?
全部评论

相关推荐

评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务