minimax大模型算法一面 好难啊感觉
攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.介绍实习和论文
2.介绍你熟悉的大模型架构
追问:两者在注意力结构、训练策略和推理优化上的主要差异。
3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率?
4.MoE 的路由机制是怎么工作的?
为什么会出现专家负载不均的问题?
5.如果专家利用率很低,你会怎么优化路由策略?
6.SFT 和 RLHF 在训练目标上有什么本质区别?
为什么很多模型在 SFT 后仍然需要 RLHF?
7.RLHF 中 PPO 的核心优化目标是什么?
写出 PPO 的目标函数,并解释每一项的意义。
8.手撕:实现 K 个有序数组的中位数
1.介绍实习和论文
2.介绍你熟悉的大模型架构
追问:两者在注意力结构、训练策略和推理优化上的主要差异。
3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率?
4.MoE 的路由机制是怎么工作的?
为什么会出现专家负载不均的问题?
5.如果专家利用率很低,你会怎么优化路由策略?
6.SFT 和 RLHF 在训练目标上有什么本质区别?
为什么很多模型在 SFT 后仍然需要 RLHF?
7.RLHF 中 PPO 的核心优化目标是什么?
写出 PPO 的目标函数,并解释每一项的意义。
8.手撕:实现 K 个有序数组的中位数
全部评论
相关推荐
03-17 09:09
河北师范大学 安卓 点赞 评论 收藏
分享
查看2道真题和解析