1.自我介绍 2. Lora 原理(核心是低秩分解:将原始权重更新近似为两个低秩矩阵乘积,减少参数量,保留主导方向,训练高效) 3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化 (1 优化优化器状态,2 优化梯度,3 切分参数,全面节省显存) 4. Qwen的模型结构是怎么样的,相比于 LLaMA, DeepSeek 有什么区别(Qwen采用GQA+SwiGLU+RMSNorm,和LLaMA架构非常相似,差异在训练数据和tokenizer中文支持更好;DeepSeek只用MoE/ MLA架构,Qwen系列主要是Dense模型) 5.怎么缓解...