辉羲智能 NPU算子开发实习生 面经

Time line
3.12 一面 hr面
3.13 二面 技术面
3.17 三面 技术面
3.24 oc

一面
主要就是聊聊天,介绍公司基本情况以及薪资待遇(正常来说,这不应该三面么)

二面
1.简单介绍一下你自己
2.拷打项目,几种常见卷积算法的优缺点
3.写算子时有碰到bank conflict吗?为什么会发生bank confict以及如何解决?
4.说一下CPU和GPU的架构
5.说一下你对grid,block,thread的理解
6.写算子时如何最大化地利用缓存?
迭代一次的数据尽量符合L1的大小,整个程序的数据尽量符合L2的大小。(当时我的回答)
7.你知道线程束分歧吗?(warp divergent 也叫线程束分化)
8.手撕矩阵乘算子(当时我打开vscode,他看了我写的reduce以及conv2d,于是便叫我写一个矩阵乘)
第一次技术面,有点紧张,在面试官的提示下顺利写出naive版本,然后说自己对后面的优化,以及如何确定最佳分块大小。过程中还问了blockDim.x和gridDim.x最大能开多少。
反问环节

三面
感觉和二面差不多,主要也是拷打项目
不同点:
1.共享内存和cache的区别
2.你了解Tensor core吗?它和CUDA core比加速矩阵乘谁更快?
3.你了解Transformer吗?
4.softmax算法在深度学习中的应用
5.手撕softmax算子(有了经验后,十分顺利)
反问环节

最后祝大家都能顺利找到实习

#面经##实习##算子开发##CUDA#
全部评论
1 回复 分享
发布于 2025-03-31 21:25 四川
1 回复 分享
发布于 2025-03-27 15:08 四川
我为大佬打call
1 回复 分享
发布于 2025-03-27 15:03 四川
佬请问你项目准备的是啥呀
点赞 回复 分享
发布于 2025-04-11 11:37 北京
佬是硕吗
点赞 回复 分享
发布于 2025-04-07 22:12 黑龙江
点赞 回复 分享
发布于 2025-03-27 15:33 四川

相关推荐

算法题: 1- 快排,寻找两个正序数组的中位数,下一个排列,二叉树中的最大路径和,Path Sum III2- 给定若干点的数轴坐标数组和固定数量的等长线段,问该线段最少要多长才能覆盖所有点3- 前k个高频字符串,词频一样时按字典序升序排列4- 给定初始字符串s,每次将字符串向右旋转一次,并将旋转后的字符串拼接到原字符串的末尾,每次操作都会使字符串的长度变为原来的两倍,求计算出无限扩展后的字符串中第 N个位置的字符5- 两根手指放在26个小写字母组成的键盘上,最少移动多少距离才能敲出给定的字符串sorch手撕题:MHA * 3,Flash Attention v1,flow matching model采样的伪代码ai infra或算法八股:1- flow matching模型预测的是什么,怎么理解conditional velocity (conditioned on data sample x0)2- 如何计算QwenImage的time shift3- 介绍Flash Attention的原理和实现思路4- GPU matrix transpose使用shared memory的好处5- CPU按列遍历一个行优先的矩阵相比按行遍历为什么性能会变差,具体是因为哪个性能指标变差导致的6- weight-only量化有哪些,实现weight-only量化cuda kernel时如何优化访存,是否了解Marlin kernel7- Megatron SP的实现方式8- DeepSpeed ZeRO stage1和stage 2的通信量区别,论文和代码实现有没有gap9- 多GPU通信时NVSHMEM和NVLink的区别
查看15道真题和解析
点赞 评论 收藏
分享
评论
9
27
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务