阿里大模型算法面经分享

给我面没招了,感觉自己好菜、面试很难,还是要多多练习
1.项目拷打
2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?
3.像那种rl里面的那个MOE之类的那种的优化有去做过吗
4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?
5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下
6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做
7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么
8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的
9.试过用 Agent去生成cuda内核么,怎么去做的
10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?
11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了
12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
全部评论
刚开始准备找实习,请问大佬这些东西都是在哪学啊😭大学摆烂了四年
点赞 回复 分享
发布于 03-27 10:17 黑龙江
这怎么一个也不会啊
点赞 回复 分享
发布于 03-25 15:29 浙江

相关推荐

04-22 16:17
已编辑
电子科技大学 算法工程师
看了大家不少面经,我也发发面经攒人品✉️投递:3.18💬面试:一面 3.23 二面 3.25 三面 4.3 HR面 4.13📝offer:4.21🎙️我的感受:我由于测评不高,面到HR面的时候非常的焦虑,很怕因为测评给我挂了我投的淘天全挂了,可能就是因为测评不行吧总体下来阿里的面试官还是挺尊重的,拷打的很详细bg:双九,一段小厂对口实习面试主要内容狠狠拷打简历,实习内容,问的非常详细,会问到你负责了什么,用了多少张卡,学习率怎么样,训练了多久,用了多少数据,数据是怎么准备的,显存占用怎么样场景题:如果我目前有一个数字人的模型,我想训练成只生成一个人的,可以怎么做你看过什么别的 SOTA 模型的 ref image 注入方式,有什么优劣八股:如何判断模型是否收敛如果训练的时候梯度消失或者爆炸,你怎么解决如何系统判断是否训练完成,特别是在视频生成模型中有哪些常见的蒸馏方法LoRA 微调的原理DiT 的框架流程,如何时间注入,讲一讲 AdaLN讲一下 flow Matching,原理,优势现在为什么大家都用 RMSNorm 而不是 LayerNormAdam 和 AdamW 的原理,有什么改进手撕:1. 二叉树的右视图2. 非 hot 100,滑动窗口3. 扎破所有气球的最少箭数暑期实习还是太折磨了,我面了好多场,一直在泡池子。。。腾讯二面给我泡了13天然后挂,米哈游一面挂,快手简历挂。。。看到身边同学都拿到offer了,那是一个焦虑啊,本来都想转日常了。最后总算是有一个结果了
查看15道真题和解析
点赞 评论 收藏
分享
评论
1
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务