发点面经攒攒人品~1.介绍主流 Transformer-based 模型架构2.讲一下 LoRA 原理3.为什么用 LoRA,而不用全量微调4.如何理解 LoRA 的核心假设:模型针对特定任务做下游微调时,权重矩阵更新具有极低的内在秩5.为什么 SFT 之后还要进行后训练6.讲一下 DPO 的损失函数怎么计算7.讲一下 GRPO 原理8.GRPO 和 PPO 的区别9.GRPO 的优点10.什么情况下使用 GRPO 效果会不好11.使用 GRPO 时,构造数据要符合什么要求12.为什么不用 GRPO 训练,而是用 DPO 训练13.熟悉哪些 Agent 框架14.如果要设计一个好的 Agent,除了大模型,还会设计哪些部分15.了解哪些训练框架16.怎么构造高质量训练集17.怎么体现训练集高质量18.多路 System 增强策略怎么做19.训练后的效果用什么指标评价20.Dense 模型和 MoE 模型有什么区别21.怎么评测训练效果22.了解哪些量化技术23.量化发挥作用的原理是什么24.讲一下 ZeRO-1、ZeRO-2、ZeRO-325.如果显存有限,会选择哪个方案训练26.了解投机解码技术吗27.讲一下投机解码技术原理28.算法题:LeetCode 56 合并区间