minimax大模型算法一面 好难啊感觉

#MiniMax求职进展汇总# 攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.介绍实习和论文
2.介绍你熟悉的大模型架构
追问:两者在注意力结构、训练策略和推理优化上的主要差异。
3.为什么 MoE 架构能在参数规模继续扩大的情况下保持训练效率?
4.MoE 的路由机制是怎么工作的?
为什么会出现专家负载不均的问题?
5.如果专家利用率很低,你会怎么优化路由策略?
6.SFT 和 RLHF 在训练目标上有什么本质区别?
为什么很多模型在 SFT 后仍然需要 RLHF?
7.RLHF 中 PPO 的核心优化目标是什么?
写出 PPO 的目标函数,并解释每一项的意义。
8.手撕:实现 K 个有序数组的中位数
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 昨天 16:12 广东
考虑我司不 欢迎联系
点赞 回复 分享
发布于 今天 00:09 上海

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务