阿里云大模型算法面经

策略梯度算法的公式?

DPO和PPO的损失函数,原理,区别,DPO的探索是如何体现的?

梯度消失,梯度爆炸的根本原因?

模型过拟合的根本原因?有哪些方式缓解过拟合?

大模型分布式训练的通信协议?torchrun是做什么用的?

deepspeed的三个阶段,分配参数时,单机8卡和双机16卡,每张卡上分配的参数量是一样的吗,为什么?

大模型位置编码的方式?旋转位置编码相比于传统正余弦位置编码的区别?为什么要用旋转位置编码?

COT的训练是如何做的,数据如何构造?

预训练时packing和padding的区别,packing的优点和缺点有哪些,哪种效果好一些?

Qwen3的模型架构(详细介绍),相比于Qwen2.5有哪些改进?

同样是MoE架构,Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别?

多模态大模型的ViT,解释原理、如何训练的?

手撕:
1、一道sql题(第一次遇到大模型面试让手撕sql的)
2、手撕transformer(第一次遇到直接说手撕transformer的)
全部评论

相关推荐

头像
昨天 20:19
已编辑
门头沟学院 人工智能
本文略长,献给身处双非、学院本科的低年级依旧陷入迷茫的同学,一个参考。夹杂强烈主观因素,若观点不同,仅当笑料。近日,工作之余的午休时间给母校的学弟学妹进行了宣讲,同时也接受了牛客的访谈,不约而同的触发了两个关键词考研,就业。现象今年和去年,认识的学弟学妹,来自知某、抖某、牛客等系列的学弟学妹,这次宣讲,约有20个学弟学妹来加了我的联系方式,向我取经,聊聊未来,聊聊想法。我这里简单概括一下。1.现在很迷茫,大方向摇摆就业还是考研,但是倾向考研。小方向摇摆竞赛和项目,不知道怎么去做,不知道怎么开始。2.考研的直接目的绝大多数都是为了(混)学历,根本目的就是提高就业竞争力。3.我把他们都拉了个群,在...
牛客85294058...:“私聊能够滔滔不绝,而拉了一个小群之后就完全一声不吭”个人观点这跟从小到大“不要浪费大家时间”的社会环境有关:个人化的提问,如果你上学时有留心、或者参加QA环节多,会注意到这种做法经常是被人骂的。要营造让大家开口的氛围和做出欢迎讨论的议题设置还是比较难的,期待方法探索。
投递大连飞创信息技术有限公司等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务