CUDA Kernel开发工程师

40-70K * 14薪

深度学习

本科

3-5年

黄先生 14分钟前在线

深圳元戎启行科技有限公司·开发工程师

反馈率：100% | 反馈时长：1天

岗位关键词

岗位职责

1、针对GPU硬件架构（NVIDIA Ampere/Hopper/Blackwell等），设计并实现深度学习框架中高性能算子（Conv/GEMM/Attention等），覆盖训练与推理场景，主导算子性能达到硬件算力峰值； 2、基于CUTLASS/CUTE抽象库，开发定制化算子，结合Tensor Core、Warp Specialization等硬件特性，实现算子极致优化； 3、探索Winograd、FFT、Structured Sparsity等算法在GPU上的高效实现，解决复杂计算模式下的访存/计算瓶颈； 4、构建算子性能自动化分析工具链（Nsight Compute/Systems），建立性能建模与优化方法论。

岗位要求

1、CUDA专家级开发经验： a.精通GPU内存模型（Global/Shared/Register/L2 Cache）、SM架构、Warp调度机制； b.熟悉指令级优化（PTX/SASS调优、LDGSTS指令、异步拷贝与计算流水）； c.掌握CUDA高级特性（Cooperative Groups、Atomic锁竞争规避、Stream并发）； d.具备Tensor Core编程经验（mma.sync指令、Warp矩阵计算抽象）。 2、高性能计算优化经验： a.深入理解GEMM优化技术（Double Buffering、Software Pipeline、Bank Conflict消除）； b.熟悉CUTLASS开源库架构，能基于CUTLASS 2.x/3.x扩展定制化GEMM/Conv算法； c.掌握Kernel性能分析方法（Roofline模型、Occupancy计算、指令吞吐/延迟分析）。 3、深度学习领域背景： a.熟悉PyTorch/TensorFlow等框架的算子实现机制（如ATen、TorchScript）； b.具备推理引擎优化经验（TensorRT/TVM优化、INT8量化算子实现）。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

元戎启行

人工智能

C轮

深圳

查看其他 18 个职位

0 笔试题目 21 面试经验 0 面试短评