2024-03-17 10:14 已编辑上海交通大学深度学习

关注

AI深度学习算法推理加速CUDA HPC类岗位-英伟达面经

前几天才面了下nvidia，面试官问了一堆底层问题，好多没答上来...

这次记录下，欢迎大家一起讨论...

哈哈标题党了，我其实不是学生，分享一下我作为一名面试官常问的AI推理加速HPC岗位的问题~仅分享通用知识部分，项目部分因人而异这里省略

C++部分

1、为什么我们做C++项目的时候，需要写头文件？

2、讲出static关键字的一种应用场景

3、单例模式如何实现？

4、讲讲四种类型转换

5、拷贝构造函数中浅拷贝和深拷贝的区别？

6、一个类要去访问另一个类的private数据成员，该如何操作？

量化quantization部分

1、说说你知道的那些针对LLM的量化技法？

2、smoothquant为什么可以解决int8 LLM的accuracy问题？

3、bfloat16和fp16(half float point)同样内存大小，那么它们可以节约的内存大小应该是一样的吗？他们的优缺点主要有哪些？

4、量化怎么平衡精度和速度？

CUDA部分

1、讲讲shared memory bank conflict的发生场景？以及你能想到哪些解决方案？

2、CUDA里面如何分配GPU显存？为什么里面的参数是二级指针？

3、优化CUDA程序的访存效率，你可以想到哪些？

4、优化CUDA程序的计算效率，你又可以想到哪些？

大模型部分

1、有哪些encoder-only、decoder-only、encoder-decoder的模型？

2、随着seqlen的增加，你觉得encoder-only的模型和decoder-only的模型的计算量和访存量会是哪些变化趋势？为什么？

3、说说你知道的大模型训练or推理的常用优化手段

4、一般会对哪些大模型里面的算子做算子融合，说说你知道的

5、flash attention的原理讲讲？你认为为什么flash attention极大提升了训练速度？

6、paged attention的原理讲讲？你认为为什么paged attention极大提升了推理速度？它和flash attention的区别是什么？

以上呢，起始都是非常经典的问题，足够看出大家对AI推理加速HPC岗位的基础。

本人知道最近大家忙着准备实习面试和几个月后的秋招面试，同时很多学弟学妹深陷AI算法和后端开发的泥沼，认为只存在这俩职位，本人当初作为应届生的时候也是这样，但其实不然，AI深度学习推理加速HPC类岗位随着nvidia的股价暴涨，需求也是越来越大的，我从去年开始就帮助了很多同学了解这方面、加入这方面、着手实践项目，很多去年都成功拿到了offer，因此欢迎大家ping我，祝大家龙年工作如意~附一些截图

全部评论

推荐最新楼层

牛客978617443号

上海杉达学院 C++

大佬你好，请问公众号是什么？

2 回复分享

发布于 2024-03-07 14:32 上海

啊实打实大苏打实打实的

四川省成都市青苏职业中专学校保险理赔

用英文面试吗

点赞回复分享

发布于 2024-10-01 15:23 广东

whats_your_name

集美大学 C++

给一下答案啊

点赞回复分享

发布于 2024-05-10 17:26 广东

牛客125465453号

111 行业研究

狠狠的赞了

点赞回复分享

发布于 2024-03-27 15:30 北京

03-03 07:50

浙江大学算法工程师

去哪儿客户端 C++ 二面面经

1. 先做个自我介绍，和一面有所区别面试官好，我换个角度介绍一下自己。一面主要介绍了技术栈和项目经验，这次我想聊聊我对客户端开发的理解和思考。我选择客户端开发这个方向，是因为喜欢那种直接面向用户、能立即看到成果的感觉。记得第一次优化完一个卡顿的列表，看到流畅的滚动效果时特别有成就感，这种即时反馈让我确定了这个方向。相比后端的业务逻辑处理，我更享受打磨用户体验的过程。技术上，我主要使用C++做跨平台客户端开发，熟悉Qt框架，也了解Windows和Linux平台的特性。在实习中积累了性能优化、内存管理、多线程编程的实际经验。我比较注重代码质量，会主动学习设计模式和最佳实践，不只是实现功能，还要考虑...

C++八股文全集

点赞评论收藏

03-02 22:30

门头沟学院机器学习

AI infra 小鹏汽车实习面经

整体面试还是不错的，但是没后续了，不知道是哪里出了问题1. CPU vs GPU vs NPU优化差异，对应场景题2. 手撕CUDA编程：在 uint8 数组中找第 K 大的值3. 手撕二叉树最右节点4. 对自动驾驶领域的了解

查看4道真题和解析

点赞评论收藏

03-01 03:15

门头沟学院机器学习

网易Ai infra 校招面经

查看18道真题和解析

点赞评论收藏

03-03 10:35

门头沟学院机器学习

AI infra 人才库面经总结

ai infra八股：1- 给定训练所需的Tokens，怎么估计模型训练所需的完整时间？2- Prefill和Decode阶段各有什么优化技术？3- 什么是Two-batch overlap，什么场景Two-batch overlap是负优化？4- megatron-lm中通信优化怎么做？5- 多机PD分离会有KV cache transfer开销，为什么还要做PD分离？6- muon和AdamW的pretrain和posttrain为什么不能混用？7- 如何看待跨SM的PD分离和AF分离？8- cuda的global memory和shared memory访存分别需要注意什么？9- deepseek-V3的优化点10- deepseek-DSA和NSA，MoBA的区别11- nccl中的通信源语有哪些？all-reduce参数更新一次参数需要几次通信？12- 在小数据量场景使用NVSHMEM，每个GPU直接读取其他GPU的数据，在本地reduce，相比ring all-reduce的好处13- 训练时如何设计超长序列下的并行14- 将Ampere架构的算子适配到Hopper架构的卡上，你会对哪些地方进行升级改造？

在改简历的大卫很认真：1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数再除以单卡算力、并行数、利用率，就是时长。 2. Prefill / Decode 优化 - Prefill：长序列并行、FlashAttention、分块、算子融合、向量化 - Decode：KV cache、连续Batch、PagedAttention、Speculative Decoding 3. Two-batch overlap - 同时跑两个微批次，计算/通信重叠 - 负优化：计算太快、通信太小、显存不够、调度 overhead 盖过收益 4. Megatron-LM 通信优化 TP+PP+DP三维并行；重叠通信计算；分桶AllReduce；激活重计算；减少跨节点通信量。 5. PD分离（PP+DP）为什么要KV transfer 为了流水线+数据并行一起用，提高吞吐；虽然有KV拷贝成本，但整体能堆更大Batch、更高利用率。 6. MuON / AdamW 不能混用优化器状态、动量、更新逻辑完全不兼容；预训练用一个，微调换另一个，状态不匹配，直接训崩/不收敛。 7. 跨SM PD / AF 分离核心：拆任务、提高 occupancy、隐藏延迟； PD：并行度拆分更干净； AF：聚焦注意力/前馈访存与计算重叠；看模型结构、Kernel瓶颈选。 8. CUDA Global / Shared 注意 - Global：对齐、连续访问、合并访存、少随机读、用L2缓存 - Shared：防bank conflict、分块复用、同步_sync、容量控制 9. DeepSeek-V3 优化点高效架构+长序列支持；优化Attention/FFN计算；更好的并行策略；推理侧低延迟高吞吐。 10. DeepSeek-DSA/NSA/MoBA - DSA：领域稀疏注意力 - NSA：神经稀疏注意力 - MoBA：混合专家注意力核心都是稀疏化、省计算、扩容量。 11. NCCL 原语 & AllReduce 次数原语：Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce：2次（ReduceScatter + AllGather）。 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟；直接GPU-GPU读+本地Reduce；小数据下延迟更低、更简单。 13. 超长序列训练并行 TP+PP+CP（上下文并行）+ ZeRO；分块Attention、分块FFN；激活重算+KV复用；控制通信量。 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 - 适配TMA、异步拷贝 - 优化Warp调度、 occupancy - 重写Attention/MatMul，用Hopper专属优化

查看14道真题和解析

点赞评论收藏