米哈游大模型算法 实习面经

发点面经攒攒人品~
1.项目拷打
2.你如何评估大模型的性能?有哪些常用的评估指标?
3.请描述一下你如何对大模型进行优化,以提高其性能和效率。
4.你是否有过使用或开发大模型的经验?请分享一个具体的案例。
5.大模型中的注意力机制是如何工作的?它在大模型中起到了什么作用?
6.大模型中的优化算法有哪些常见的选择?它们各有什么优缺点?
7.如何处理大模型训练过程中的梯度消失或梯度爆炸问题?
8.在大模型设计中,如何权衡模型的复杂度和性能?
9.面对大模型训练和推理所需的庞大计算资源,你有什么解决建议?
10.请简述你了解的大模型的主要结构特点。
11.reward bench上的reward model分哪几类?
12. reward model如何训练的,训练目标是什么?
13.dp0训练的损失函数和训练目标,dpo如何改进怎么理解大模型安全,包含哪些方面的内容?
14.指令跟随能力的评估集有什么,如何评估的?
15.阿尔法狗强化学习策略是什么?提升推理能力和指令跟随能力哪个更难, 为什么, 提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方?
16.dpo训完了一般输出长度会变化吗? 如何解决这个问题大模型训练过程学习率一般是怎么变化的, 退火阶段学习率如何变化的?
全部评论

相关推荐

评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务