自我介绍了解 DeepSeek-R1 吗?介绍一下?R1 的 MLA 是如何实现 KV-Cache 的节约R1 在 SFT 时冷启动的目的位置编码是什么?解释 ROPE?一个 14B 的模型,推理和训练要多少缓存显存的占用和哪些因素有关大模型灾难性遗忘是什么?如何解决?BF16、FP16、FP32 对比?Adam、AdamW 原理deepspeed 的三个阶段自我介绍手写 Self-Attention 公式,解释 Q/K/V 的作用位置编码有哪些实现方式?相对位置编码相比绝对位置编码的优势?LayerNorm 和 BatchNorm 的区别?为什么 Transformer 用 LayerNor...