阿里26秋招大模型算法面经
1.策略梯度算法的公式?
2.DPO和PPO的损失函数,原理,区别,DPO的探索是如何体现的?
3.梯度消失,梯度爆炸的根本原因?
4.模型过拟合的根本原因?有哪些方式缓解过拟合?
5.大模型分布式训练的通信协议?torchrun是做什么用的?
6.deepspeed的三个阶段,分配参数时,单机8卡和双机16卡,每张卡上分配的参数量是一样的吗,为什么?
7.大模型位置编码的方式?旋转位置编码相比于传统正余弦位置编码的区别?为什么要用旋转位置编码?
8.COT的训练是如何做的,数据如何构造?
9.预训练时packing和padding的区别,packing的优点和缺点有哪些,哪种效果好一些?
10.Qwen3的模型架构(详细介绍),相比于Qwen2.5有哪些改进?
11.同样是MoE架构,Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别?
12.多模态大模型的ViT,解释原理、如何训练的?
手撕:
1、一道sql题(第一次遇到大模型面试让手撕sql的)
2、手撕transformer(第一次遇到直接说手撕transformer的)
2.DPO和PPO的损失函数,原理,区别,DPO的探索是如何体现的?
3.梯度消失,梯度爆炸的根本原因?
4.模型过拟合的根本原因?有哪些方式缓解过拟合?
5.大模型分布式训练的通信协议?torchrun是做什么用的?
6.deepspeed的三个阶段,分配参数时,单机8卡和双机16卡,每张卡上分配的参数量是一样的吗,为什么?
7.大模型位置编码的方式?旋转位置编码相比于传统正余弦位置编码的区别?为什么要用旋转位置编码?
8.COT的训练是如何做的,数据如何构造?
9.预训练时packing和padding的区别,packing的优点和缺点有哪些,哪种效果好一些?
10.Qwen3的模型架构(详细介绍),相比于Qwen2.5有哪些改进?
11.同样是MoE架构,Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别?
12.多模态大模型的ViT,解释原理、如何训练的?
手撕:
1、一道sql题(第一次遇到大模型面试让手撕sql的)
2、手撕transformer(第一次遇到直接说手撕transformer的)
全部评论
相关推荐
点赞 评论 收藏
分享
查看14道真题和解析