阿里26秋招大模型算法面经

1.策略梯度算法的公式?

2.DPO和PPO的损失函数,原理,区别,DPO的探索是如何体现的?

3.梯度消失,梯度爆炸的根本原因?

4.模型过拟合的根本原因?有哪些方式缓解过拟合?

5.大模型分布式训练的通信协议?torchrun是做什么用的?

6.deepspeed的三个阶段,分配参数时,单机8卡和双机16卡,每张卡上分配的参数量是一样的吗,为什么?

7.大模型位置编码的方式?旋转位置编码相比于传统正余弦位置编码的区别?为什么要用旋转位置编码?

8.COT的训练是如何做的,数据如何构造?

9.预训练时packing和padding的区别,packing的优点和缺点有哪些,哪种效果好一些?

10.Qwen3的模型架构(详细介绍),相比于Qwen2.5有哪些改进?

11.同样是MoE架构,Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别?

12.多模态大模型的ViT,解释原理、如何训练的?

手撕:
1、一道sql题(第一次遇到大模型面试让手撕sql的)
2、手撕transformer(第一次遇到直接说手撕transformer的)
全部评论

相关推荐

1、项目,各种聊就行2、ViT的原理,swin-Transformer的原理,各自对比,他们的编码方式,是否可学习,各自优缺点,attention的区别和滑动方法;3、多模态VLM的不同模块的设计原理,attention原理,旋转位置编码原理4、手撕动态规划题目:给定一个三角形 triangle ,找出自顶向下的最小路径和。 每一步只能移动到下一行中相邻的结点上。相邻的结点 在这里指的是 下标 与 上一层结点下标 相同或者等于 上一层结点下标 + 1 的两个结点。也就是说,如果正位于当前行的下标 i ,那么下一步可以移动到下一行的下标 i 或 i + 1 。 示例 1: 输入:triangle = [[2],[3,4],[6,5,7],[4,1,8,3]] 输出:11 解释:如下面简图所示: 2 3 4 6 5 7 4 1 8 3 自顶向下的最小路径和为 11(即,2 + 3 + 5 + 1 = 11)。 示例 2: 输入:triangle = [[-10]] 输出:-10解题代码:# dp 三角def minimumSum(triangle):# top --downfor i in range(len(triangle)-2, -1, -1):# scane all elemfor j in range(len(triangle[i])):# current +=  下一行最小值triangle[i][j] += min(triangle[i+1][j], triangle[i+1][j+1])# top last就是return triangle[0][0]if __name__ == "__main__":triangle = [[2],[3,4],[6,5,7],[4,1,8,3]]print(minimumSum(triangle))triangle = [[-10]]print(minimumSum(triangle)
查看3道真题和解析
点赞 评论 收藏
分享
评论
4
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务