继续来分享下之前的面经~欢迎友好讨论,信息共享1. LLaMA 相比原始 Transformer 架构有哪些改进?2. 微调(Fine-tuning)和对齐(Alignment)的区别?3. 模型微调到什么程度才需要进行对齐?4. 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?5. 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?6. GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?7. 损失采样(Loss Sampling)相关问题?8. 目前了解哪些大模型架构?例如 LLaMA 等。9. 是否了解 PagedAttention?10. LoRA 中两个低秩矩阵是如何初始化的?11. PPO 中的四种模型分别是什么?各自的作用是什么?