钱包瘦身比我快系列

02-28 17:55 门头沟学院机器学习

关注

网易AI infra校招二面 1h

发发面经攒点人品，祝大家都能拿到满意的Offer！
1. 项目深挖
2. 算力决定因素（时钟频率/SM数/计算单元数/精度格式）
3. FP8格式差异（E4M3高精度窄范围 vs E5M2宽动态范围）
4. 矩阵乘算术强度：M×K×N 次乘加，访存 MK+KN+MN
5. 场景题；通信与计算优化：
uint数组通信压缩：uint32→uint16
6. 场景题：流水线重叠，计算总时间
7. 场景题：合并访存实践：32×32矩阵求和 → 按行访问（连续）优于按列（非连续）
8. 有哪些评估模型效果的指标：
延迟（TTFT/TPT）、吞吐量、GPU/内存利用率、失败率
9. Decoder-only架构
10. CUDA Core vs Tensor Core适用场景
11. 手撕：行TOP1 CUDA实现（shared memory归约 + 多行优化）
12. 给出一段代码找优化方法

全部评论

推荐最新楼层

02-12 16:47

武汉大学 C++

C++/CUDA/AI-infra面试经验总结

我自己在搞 AI Infra/HPC，有两个一直在维护的仓库：一个是用 C++/CUDA 从零写的深度学习框架：OriginDL另一个是工作中一点点积累下来的 AI Infra/HPC 知识地图：ai‑infra‑hpc链接先丢这儿，感兴趣可以先 star 了再说：https://github.com/jinbooooom/OriginDLhttps://github.com/jinbooooom/ai-infra-hpc如果你是刚开始找工作，或者准备投大模型 AI Infra/HPC 方向的岗位，可以把下面这份当成一个「复习清单」：面试高频会围着哪些点打转、我当时是怎么系统整理的、以及怎么用...

面试问题记录

点赞评论收藏

分享

03-03 00:25

山东大学算法工程师

AI infra 蔚来汽车实习面经

发一下问题给大家参考，攒攒人品！有面试过同岗的朋友欢迎评论区交流1. 项目交流2.  Shared Memory Bank Conflict及解决办法3. 同一Warp内不同线程的访问约束4. 广播机制（Broadcast）6. 四种Cast转换的区别与应用场景（reinterpret_cast等）7. 父类转子类的安全性问题与内存布局约束手撕：01背包问题 vs 完全背包问题

查看7道真题和解析

点赞评论收藏

分享

03-09 17:45

门头沟学院推荐算法

数坤科技AI infra实习一面

整体面试还是不错的，但是没后续了，不知道是哪里出了问题1.深挖实习，根据实习场景出题2.分析缺少经验的情况下如何做智能体(强化学习)3.transformer的架构，kv-cache加速体现在哪里4.并行策略，哪几种并行5.做并行的时候，矩阵切分有什么注意的，矩阵切分的数学原理6.通信时延的影响因素，如何缓解7.你未来的职业规划8.手撕:在全0方形矩阵画出一个内切圆(用1填充)

查看7道真题和解析

点赞评论收藏

分享

02-28 21:00

昆明理工大学算法工程师

小马智行ai infra实习面经

被狠狠拷打了，发点面经攒攒人品1.什么是cudagraph。为什么cudagraph会用到更多的显存。推理的什么阶段更适合cudagrapho2.讲跨block的内部通信，warp原语。举一些warp原语的例子，讲讲都是什么。3.讲一下对nv芯片的ptx机器模型的认识。4.讲讲对cuda代码编译流程的认识。5.讲讲MLIR，以及为什么要设计MLIR出来6.手撕:归并排序

查看6道真题和解析

点赞评论收藏

分享

03-03 12:20

山东大学算法工程师

面经总结 AI infra 攒人品

算法题： 1- 快排，寻找两个正序数组的中位数，下一个排列，二叉树中的最大路径和，Path Sum III2- 给定若干点的数轴坐标数组和固定数量的等长线段，问该线段最少要多长才能覆盖所有点3- 前k个高频字符串，词频一样时按字典序升序排列4- 给定初始字符串s，每次将字符串向右旋转一次，并将旋转后的字符串拼接到原字符串的末尾，每次操作都会使字符串的长度变为原来的两倍，求计算出无限扩展后的字符串中第 N个位置的字符5- 两根手指放在26个小写字母组成的键盘上，最少移动多少距离才能敲出给定的字符串sorch手撕题：MHA * 3，Flash Attention v1，flow matching model采样的伪代码ai infra或算法八股：1- flow matching模型预测的是什么，怎么理解conditional velocity (conditioned on data sample x0)2- 如何计算QwenImage的time shift3- 介绍Flash Attention的原理和实现思路4- GPU matrix transpose使用shared memory的好处5- CPU按列遍历一个行优先的矩阵相比按行遍历为什么性能会变差，具体是因为哪个性能指标变差导致的6- weight-only量化有哪些，实现weight-only量化cuda kernel时如何优化访存，是否了解Marlin kernel7- Megatron SP的实现方式8- DeepSpeed ZeRO stage1和stage 2的通信量区别，论文和代码实现有没有gap9- 多GPU通信时NVSHMEM和NVLink的区别

查看15道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 跟HR说什么能被秒回？ #

10800次浏览 184人参与

# 视觉/交互/设计百问百答 #

76410次浏览 460人参与

# 巨人网络春招 #

10366次浏览 164人参与

# 春招/暑实第一面是哪家？ #

22129次浏览 241人参与

# 如何一边实习一边找下家？ #

34507次浏览 247人参与

# 你收到了哪些公司的笔试？ #

20362次浏览 114人参与

# MiniMax求职进展汇总 #

16576次浏览 246人参与

# 面试官最爱问的 AI 问题是...... #

18461次浏览 619人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

3601次浏览 97人参与

# 你的嫡系AI是哪个？ #

5004次浏览 119人参与

# 现在入门AI应该走哪些方向？ #

5138次浏览 106人参与

# 总结:哪家公司面试体验感最差 #

105046次浏览 466人参与

# 京东美团大战，你怎么看？ #

174544次浏览 883人参与

# 京东开奖 #

673932次浏览 3238人参与

# 正在春招的你，也参与了去年秋招吗？ #

359649次浏览 2614人参与

# 面试吐槽bot #

178591次浏览 832人参与

# 想给25届机械人的秋招建议 #

46249次浏览 247人参与

# 职能管理面试记录 #

9370次浏览 45人参与

# 第一次面试 #

1098194次浏览 13826人参与

# 电信求职进展汇总 #

45554次浏览 209人参与

# 阿里巴巴工作体验 #

27078次浏览 61人参与

# 实习生如何通过转正 #

130199次浏览 1477人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务