大模型应用工程师面经~ AI相关岗位内推

  • 自我介绍
  • 了解 DeepSeek-R1 吗?介绍一下?
  • R1 的 MLA 是如何实现 KV-Cache 的节约
  • R1 在 SFT 时冷启动的目的
  • 位置编码是什么?解释 ROPE?
  • 一个 14B 的模型,推理和训练要多少缓存
  • 显存的占用和哪些因素有关
  • 大模型灾难性遗忘是什么?如何解决?
  • BF16、FP16、FP32 对比?
  • Adam、AdamW 原理
  • deepspeed 的三个阶段

  • 自我介绍
  • 手写 Self-Attention 公式,解释 Q/K/V 的作用
  • 位置编码有哪些实现方式?相对位置编码相比绝对位置编码的优势?
  • LayerNorm 和 BatchNorm 的区别?为什么 Transformer 用 LayerNorm?
  • 多头注意力的本质是什么?头数如何影响模型性能
  • 大模型训练中的显存瓶颈如何解决?
  • LoRA/Adapter/P-Tunning 的区别?如何选择微调方法》
  • 解释 PLHF 流程,客服场景如何应用?
  • 大模型灾难性遗忘的原因和缓解方法?
  • 如何实现混合精度训练(AMP)?遇到 NaN 怎么处理?
  • Deeppspeed 的 ZeRO 阶段 1 2 3 分别优化了什么?
  • 解释梯度累计的原理和实现代码?

#牛客AI配图神器#

#内推##AI面经#
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务