1.DeepSpeed Zero(123)2.流水线并行3.显存中模型参数,梯度,优化器参数的比例4.混合精度,在模型训练的过程中混合精度的变化过程5.流水线并行的时候气泡现象6.介绍PPO,DPO,GRPO7.Prompt设计8.模型重复输出应该如何解决9.TopK,TopP,Temperature10.介绍Encode结构11.有哪些位置编码12.RoPE如何实现13.DeepSeek的注意力机制MLA14.DeepSeek的混合专家模型MoE15.模型的外推性16.Layer normalization在前面和在后面的区别和优缺点17.Batch norm相比Layer norm18.RMS norm为啥去掉减去均值的步骤也可以有效?19.word embedding20.有哪些高效微调的方法21.了解QWQ模型吗