美团北斗AI infra校招面经

攒人品中~
1.介绍一下Transformer的架构,和传统RNN循环神经网络相比有何优势
2.Transformer中参数都分布在哪里,参数量最大的是哪部分?计算量最大的是哪部分,为什么?
3.了解GPU的cudacore、Tensorcore吗,你常用的GPU有哪些,他们的显存和显存带宽有多大?
4.讲讲大模型的量化,讲量化算子
5.详细讲pd分离
6. 详细讲paged atten
7.LC25题:K个一组翻转链表
8.写cuda算子:前缀和。实现一个base的,讲优化方法
9.写cuda算子gemm:实现一个base的,讲优化方法
全部评论

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
03-26 10:52
已编辑
门头沟学院 算法工程师
📍面试公司:文远知行一面(更新2026/03/26挂)🕐面试时间:2026/03/20💻面试岗位:AI infra(时长1小时)❓面试问题:一、实习项目拷打10分钟,你在上一家公司做了什么二、八股1、PD分离机制,如何调度两个队列          ——回答PD区别,然后我如何设计调度策略,优先D,也保证P不被饿死2、vllm如何优化显存?                            ——讲了pageattention、continue batching、内存复用3、chunk prefill                                       ——分块计算,我感觉这个没啥好讲的,可能是针对padding吧4、什么是虚拟内存                                   ——这个很简单5、说一下进程和线程的区别,以及操作系统如何调度    ——这个也简单6、讲一下TCP\IP栈                                  ——说实话没听明白,后来询问之后是介绍TCP/IP模型7、追问如何通过IP地址进行通信(找到目标ip) ——这个我其实忘了,随便说了一下洪泛搜索,不知道对不对8、K8S拷打,简历上没写这个                   ——反正基本都不会,应该是炸了,只知道pod和container😓三、手撕(dfs+优化思路)给的测试数据不大,十分钟写了个O(N^N)的算法,运行没问题,然后要求优化成O(N^logN) ——想了很久,提示二分后没时间了,就没写了。四、反问1、我今天表现怎么样答:我感觉你没睡醒😂,状态不好。(我感觉这面试官也一直打哈欠)2、对我有什么建议吗答:简历都挺好的,技术上不应该只追求论文,你可以多了解一下K8S这些3、部门业务是啥答:我们组是做ai infra的,顶层可能是k8s负责调度大模型,中间有做算法优化,底层也有cuda算子优化吧。(这个                面试官介绍的挺详细的,我感觉他是负责K8S调度的)🙌面试感想:发挥不是很好,面试官人挺不错,感觉凉了大半截了,过几天看看结果吧。
查看12道真题和解析
点赞 评论 收藏
分享
评论
2
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务