阿里大模型面经汇总
1. 注意力机制:请简述 MHA、MQA 和 GQA 三种注意力机制的核心区别。
2. 模型架构:Dense 模型与 MoE 模型有何本质区别?
3. 路由机制:MoE 模型中,路由(Routing)机制具体是如何工作的?
4. LoRA 微调:请阐述 LoRA 的原理,以及其中 A、B 矩阵的初始化方式和秩(Rank)的设置考量。
5. 强化学习:请对比 DPO、PPO 和 GRPO 的原理与区别,并写出 DPO 的 Loss 函数公式。
6. 推理加速:vLLM 中使用了哪些关键技术(如 PagedAttention、KV Cache)来优化推理?
7. 并行框架:你对 DeepSpeed 这一加速推理与训练框架有多少了解?
8. BM25 算法:请讲解 BM25 算法的计算原理。
9. 负载均衡:MoE 模型中专家(Expert)的负载不均衡问题该如何解决?
10. 损失函数:能否通过修改损失函数的方式来缓解 MoE 的负载均衡问题?
11. 数据分布:SFT 微调数据与预训练数据分布差异较大时,该如何处理?
12. Scaling Law:SFT 微调的数据集是越大越好吗?是否存在 Scaling Law 现象?
13. 训练稳定性:强化学习(RL)为何存在训练不稳定的问题?既然不稳定为何业界仍广泛使用?
14. 三数之和:LeetCode 15. 三数之和。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2. 模型架构:Dense 模型与 MoE 模型有何本质区别?
3. 路由机制:MoE 模型中,路由(Routing)机制具体是如何工作的?
4. LoRA 微调:请阐述 LoRA 的原理,以及其中 A、B 矩阵的初始化方式和秩(Rank)的设置考量。
5. 强化学习:请对比 DPO、PPO 和 GRPO 的原理与区别,并写出 DPO 的 Loss 函数公式。
6. 推理加速:vLLM 中使用了哪些关键技术(如 PagedAttention、KV Cache)来优化推理?
7. 并行框架:你对 DeepSpeed 这一加速推理与训练框架有多少了解?
8. BM25 算法:请讲解 BM25 算法的计算原理。
9. 负载均衡:MoE 模型中专家(Expert)的负载不均衡问题该如何解决?
10. 损失函数:能否通过修改损失函数的方式来缓解 MoE 的负载均衡问题?
11. 数据分布:SFT 微调数据与预训练数据分布差异较大时,该如何处理?
12. Scaling Law:SFT 微调的数据集是越大越好吗?是否存在 Scaling Law 现象?
13. 训练稳定性:强化学习(RL)为何存在训练不稳定的问题?既然不稳定为何业界仍广泛使用?
14. 三数之和:LeetCode 15. 三数之和。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
12-08 09:44
门头沟学院 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看25道真题和解析