oppo AI infra实习二面 好难

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
项目拷打
1. 数据布局详解:NHWC vs NCHW:在训练/推理中怎么选?
2. 何时应该关闭 Shared Memory?(当出现 Bank Conflict 严重或收益不如直接访问 L2 时)
3. 特定 Shape 导致使用 Shared Memory 时结果异常如何排查
4. Thread/Warp/Block/SM/Grid 的映射关系
5. 如何确定最优线程数?
6. 异步设计:CUDA Stream 的使用前提(无内存访问重叠)
7. 算子融合决策,什么场景适合融合
全部评论
1. NHWC vs NCHW - NCHW:GPU/训练友好,卷积更快,适合训练。 ​ - NHWC:CPU/推理友好,访存连续,适合推理/端侧。 ​ - 选法:训练优先 NCHW,推理看框架/硬件。   2. 何时关 Shared Memory - Bank Conflict 严重、优化不动时 ​ - 数据复用少,SM 开销 > L2 直接读收益 ​ - 小核、低算力 GPU 上 SM 紧张   3. Shared Memory 结果异常排查 - 越界读写、未__syncthreads() ​ - Bank Conflict 导致性能/数值抖动 ​ - 多warp 写同地址、未正确同步 ​ - 类型/大小对齐错误   4. Thread/Warp/Block/SM/Grid
点赞 回复 分享
发布于 03-02 19:35 浙江

相关推荐

1️⃣算法题:1- 拓扑排序实现任务调度器并用伪代码实现work-stealing的优化版本2- 一条包含字母 A-Z 的消息通过'A' -> 1,'B' -> 2,..., 'Z' -> 26方式进行了编码,给定一个只包含数字的非空字符串,求解码方法的总数3- 有一个长度为n的序列a1,a2,..., an,我们希望选择一个最大公约数不为1的子序列,求可以选择的最长子序列长度,以及这种最长的子序列总共有多少种。如果两个子序列所包含的元素值的多重集合相同,则认为它们是同一种方案,即不区分下标位置,仅按所含数字及出现次数判断是否相同。 数据范围:1 <= n <= 2e6, 1 <= ai <= 2e6, 保证序列a不含12️⃣cuda手撕题:1- max reduce,input为 [N, C, H, W] = [128, 16, 256, 256],output为[N, H, W]2- per row量化算子3- 计算自然对数e3️⃣ai infra或算法八股:1- 介绍一下MeanFlow2- 训练diffusion model或flow matching model时timestep采样使用什么分布3- score matching中score的计算公式4- MTP和Eagle的区别,MTP head的prefill过程,MTP head的kv cache变化5- mma和ldmatrix在cutlass CuTE中的thread value layout6- 投机采样的加速比分析公式,MoE模型的投机采样遇到的性能问题7- FSDP2和FSDP1的区别
查看13道真题和解析
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务