03-25 08:30 西安交通大学算法工程师

关注

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习
1.项目拷打
2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？
3.像那种rl里面的那个MOE之类的那种的优化有去做过吗
4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？
5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下
6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做
7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么
8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的
9.试过用 Agent去生成cuda内核么，怎么去做的
10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？
11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了
12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

全部评论

推荐最新楼层

门头沟学院算法工程师

刚开始准备找实习，请问大佬这些东西都是在哪学啊😭大学摆烂了四年

点赞回复分享

发布于 03-27 10:17 黑龙江

爱吃鸡腿的王者顶呱呱

杭州电子科技大学算法工程师

这怎么一个也不会啊

点赞回复分享

发布于 03-25 15:29 浙江

04-15 13:45

北京邮电大学 Java

阿里云 4.13 大模型应用开发一面

项目提问，为什么选择这个任务，开发中遇到什么问题，自己怎么解决的？项目开发中技术栈的选择和开发流程。 项目中你做了一些优化，有没有和旧策略进行对比，具体有哪些提升？ 介绍下prompt工程，你了解prompt自动化吗？ 介绍下sft，它是怎么做的，有什么衡量指标 rag知识库怎么搭的？向量维度的选择，embedding模型的选择 java里HashMap的底层实现，什么时候转为红黑树，为什么转红黑树策略这样设置，HashMap的key有什么要求（实现hashcode和equals） 编程题：java实现用一个标记位实现一个锁。和面试官说了不会，换成了K个一组翻转链表。

查看9道真题和解析

点赞评论收藏

分享

04-15 08:00

门头沟学院算法工程师

阿里大模型算法一面实习分享

攒攒人品！有面试过同岗的朋友欢迎评论区交流1、都知道哪些vllm的优化技术？2、在现有模型的基础上，由于算力问题，如何利用大模型来蒸馏一个3B的模型？3、logistic回归的模型原理和loss。4、给定一个时间序列，如何通过机器学习的方法进行建模筛选出来重要的特征，然后基于规则方法进行建模5、DeepSeek-MTP是用在训练阶段还是推理阶段的，具体过程是怎样的？6、在现有大模型的基础上，如何通过agent的相关方法，训练一个coder模型，撰写金融领域相关模型的代码。

点赞评论收藏

分享

05-05 13:48

门头沟学院算法工程师

阿里国际大模型算法一面分享

发一下问题给大家参考，攒攒人品！1- 问项目2-为什么选择grpo不用sft，技术选型，什么时候用sft，什么时候用蒸馏，什么时候用grpo3- grpo训练中观察什么指标4-八股：5- grpo 的 loss 讲讲6- Advangates 怎么算的，在整个训练中起什么作用，为什么需要Advatanges，直接用奖励去算不行吗？7-重要性采样，为什么需要。如果一次新策略和旧日策略差别很大，那重要性采样还有用吗8-grpo的K|散度和ppo的kl散度是一模一样的吗9- ppo grpo Fon-policytEoff-policy10- ppo中advantages是怎么得到的？11-信用分配，grpo中，比如一个采样结果，是序列级别的，如果这个序列的最终奖励高，那么是如何分配到每个token的12-Agent 做多轮工具调用 和单轮，可能有什么挑战？13- code: x 的平方根

查看12道真题和解析

点赞评论收藏

分享

04-22 16:17

已编辑

电子科技大学算法工程师

阿里云多模态大模型暑期实习（已oc）

看了大家不少面经，我也发发面经攒人品✉️投递：3.18💬面试：一面 3.23 二面 3.25 三面 4.3 HR面 4.13📝offer：4.21🎙️我的感受：我由于测评不高，面到HR面的时候非常的焦虑，很怕因为测评给我挂了我投的淘天全挂了，可能就是因为测评不行吧总体下来阿里的面试官还是挺尊重的，拷打的很详细bg：双九，一段小厂对口实习面试主要内容狠狠拷打简历，实习内容，问的非常详细，会问到你负责了什么，用了多少张卡，学习率怎么样，训练了多久，用了多少数据，数据是怎么准备的，显存占用怎么样场景题：如果我目前有一个数字人的模型，我想训练成只生成一个人的，可以怎么做你看过什么别的 SOTA 模型的 ref image 注入方式，有什么优劣八股：如何判断模型是否收敛如果训练的时候梯度消失或者爆炸，你怎么解决如何系统判断是否训练完成，特别是在视频生成模型中有哪些常见的蒸馏方法LoRA 微调的原理DiT 的框架流程，如何时间注入，讲一讲 AdaLN讲一下 flow Matching，原理，优势现在为什么大家都用 RMSNorm 而不是 LayerNormAdam 和 AdamW 的原理，有什么改进手撕：1. 二叉树的右视图2. 非 hot 100，滑动窗口3. 扎破所有气球的最少箭数暑期实习还是太折磨了，我面了好多场，一直在泡池子。。。腾讯二面给我泡了13天然后挂，米哈游一面挂，快手简历挂。。。看到身边同学都拿到offer了，那是一个焦虑啊，本来都想转日常了。最后总算是有一个结果了

查看15道真题和解析

点赞评论收藏

分享

04-11 15:49

南京大学 Java

4.11 阿里研发岗笔试

三道算法，第一题全过，第二题思路和公众号的算法写的一样，但是很诡异才过了65%，我当时同样的代码连续提交了很多次，第一次过40第二次过60第三次过65（难道说网速和输入输出也很影响时间复杂度？我时间复杂度是ON），第三题想了半天，感觉是DP但是写不出来，放弃了

点赞评论收藏

分享

评论

1

6

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

89124次浏览 639人参与

# 百度工作体验 #

332604次浏览 2254人参与

# 在爱玛，骑向未来 #

45051次浏览 440人参与

# 打工人的精神状态 #

154647次浏览 1553人参与

# 简历当中有水分算不算造假？ #

176563次浏览 2330人参与

# 你收到了哪些公司的笔试？ #

69380次浏览 446人参与

# 你以为的实习VS真实的实习 #

142787次浏览 758人参与

# 备战春招/暑实，现在应该做什么？ #

70342次浏览 557人参与

# 机械人，说说你的烦心事 #

148845次浏览 1165人参与

# 职场新人体验 #

192927次浏览 1241人参与

# 距离春招还有一个月，你现在是什么开局？ #

62875次浏览 320人参与

# 银行笔面经互助 #

198593次浏览 1326人参与

# 工作后，你落下了哪些病根 #

42470次浏览 294人参与

# 应届生，你找到工作了吗 #

174226次浏览 900人参与

# 毕业季，给职场新人一些建议 #

221458次浏览 2603人参与

# 面试被问期望薪资时该如何回答 #

402773次浏览 2219人参与

# 实习生工资多少才算正常？ #

76960次浏览 534人参与

# 你被哪些公司挂了？ #

198445次浏览 1077人参与

# 我们是不是被“优绩主义”绑架了？ #

49559次浏览 550人参与

# 你会为了工作牺牲生活吗？ #

81932次浏览 466人参与

# 实习生的蛐蛐区 #

958758次浏览 4850人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务