岗位名称 - 搜索广告算法召回实习生(CUDA算子/模型量化/MFU优化)岗位亮点- 面向大规模广告检索与召回场景,直面高并发、低延迟的线上挑战- 深度参与 CUDA 自定义算子、模型量化(INT8/FP8/Weight-only 等)、算子融合与调度优化,显著提升 GPU MFU(Machine FLOPs Utilization,算力利用率)- 使用前沿工具链(PyTorch/CUTLASS/Triton/Nsight),在 H800/L20/H20 等集群上做真实生产优化岗位职责- 参与搜索广告召回模型的高性能实现与优化,设计并编写自定义 CUDA 算子(如 embedding/MLP/相似度计算/top-k/量化 matmul 等)- 推进模型量化方案(PTQ/QAT/Weight-only/INT8/FP8),搭建校准管线,控制精度损失并完成线上评估与回归监控- 进行 GPU 性能分析与优化:访存合并、共享内存与寄存器使用、warp 级并行、向量化加载、占用率调优、异步拷贝与流水线并行、减少 kernel launch 开销- 衡量与提升 MFU,构建标准化基准与压测体系,使用 Nsight Compute/Systems 做瓶颈定位并给出改进方案简历发送至 yushihao@xiaohongshu.com