攒攒人品!有面试过同岗的朋友欢迎评论区交流1.介绍实习和论文2.介绍你熟悉的大模型架构追问:两者在注意力结构、训练策略和推理优化上的主要差异。3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率?4.MoE 的路由机制是怎么工作的?为什么会出现专家负载不均的问题?5.如果专家利用率很低,你会怎么优化路由策略?6.SFT 和 RLHF 在训练目标上有什么本质区别?为什么很多模型在 SFT 后仍然需要 RLHF?7.RLHF 中 PPO 的核心优化目标是什么?写出 PPO 的目标函数,并解释每一项的意义。8.手撕:实现 K 个有序数组的中位数