AI系统与LLM推理优化实习生

280-380元/天
人工智能
上海
硕士
4天/周
最少6个月
岗位关键词

投递时间:2026年4月29日-2026年6月29日

岗位职责
职位概述 我们正在构建新一代大语言模型(LLM)推理系统,重点聚焦三个核心方向: ● GPU Kernel 与 Triton 类编程模型优化 ● 高性能推理框架(Inference Framework)优化 ● LLM 与 MoE 模型层优化 这是一个研究 + 工程结合的岗位,你将参与完整技术栈: 模型 → Kernel → 运行时 → 分布式系统,共同打造端到端的AI机架级推理软件系统。 主要职责 1. Triton与Kernel层优化 ● 使用以下技术开发高性能GPU算子: ● Triton类编程模型 ● CUDA或其他底层框架 ● 优化关键计算路径: ● Attention及核心Tensor算子 ● 内存访问模式与数据布局 ● Kernel融合与执行效率 ● 探索面向深度学习的编译器式优化方法 2. 推理框架优化(Inference Framework) ● 使用并优化主流LLM推理框架: ● vLLM、TensorRT-LLM、FasterTransformer等 ● 设计和优化: ● batching与调度策略 ● runtime执行效率 ● 多模型与pipeline推理 ● 分析系统瓶颈并进行端到端性能优化 3. 模型层优化(LLM & MoE) ● 实现并评估以下技术: ● KV cache优化与内存管理 ● 动态/连续batching ● Speculative decoding ● 量化(INT8 / FP8 / 低比特) ● 探索混合专家模型及推理优化: ● 路由策略与负载均衡 ● 专家并行与切分 ● 通信与计算开销权衡 4. 研究与系统集成 ● 阅读并复现前沿研究成果 ● 将论文方法转化为可运行系统模块 ● 在以下维度进行协同优化: ● 模型层 ● Kernel层 ● Runtime与分布式系统 5. 端到端系统开发 ● 参与构建完整LLM推理系统: ● 模型执行层 ● runtime与调度层 ● 分布式推理系统 ● 优化方向包括: ● 多GPU / 多节点扩展 ● NCCL通信性能 ● 系统级性能调优 任职要求 基础要求 ● 计算机、电子或相关专业硕士或博士在读(必须) ● 扎实的编程能力(Python 必须,C++加分) ● 熟悉PyTorch及Transformer模型 ● 具备良好的算法与系统基础 ● 可保证至少6个月实习期 加分项 ● 具备以下任一经验: ● GPU编程(CUDA / Triton等) ● LLM推理框架(vLLM、TensorRT-LLM等) ● 分布式系统或并行计算 ● 了解以下方向: ● GPU架构或性能分析 ● 模型量化或压缩 ● MoE或大规模模型系统 我们期待你具备 ● 能够完成从论文 → 实现 → 优化的闭环 ● 对性能优化与系统问题有强烈兴趣 ● 具备解决复杂技术问题的执行力 ● 对大规模LLM系统如何高效运行有好奇心
岗位要求
职位概述 我们正在构建新一代大语言模型(LLM)推理系统,重点聚焦三个核心方向: GPU Kernel 与 Triton 类编程模型优化 高性能推理框架(Inference Framework)优化 LLM 与 MoE 模型层优化 这是一个研究 + 工程结合的岗位,你将参与完整技术栈: 模型 → Kernel → 运行时 → 分布式系统,共同打造端到端的AI机架级推理软件系统。 主要职责 1. Triton与Kernel层优化 使用以下技术开发高性能GPU算子: Triton类编程模型 CUDA或其他底层框架 优化关键计算路径: Attention及核心Tensor算子 内存访问模式与数据布局 Kernel融合与执行效率 探索面向深度学习的编译器式优化方法 2. 推理框架优化(Inference Framework) 使用并优化主流LLM推理框架: vLLM、TensorRT-LLM、FasterTransformer等 设计和优化: batching与调度策略 runtime执行效率 多模型与pipeline推理 分析系统瓶颈并进行端到端性能优化 3. 模型层优化(LLM & MoE) 实现并评估以下技术: KV cache优化与内存管理 动态/连续batching Speculative decoding 量化(INT8 / FP8 / 低比特) 探索混合专家模型及推理优化: 路由策略与负载均衡 专家并行与切分 通信与计算开销权衡 4. 研究与系统集成 阅读并复现前沿研究成果 将论文方法转化为可运行系统模块 在以下维度进行协同优化: 模型层 Kernel层 Runtime与分布式系统 5. 端到端系统开发 参与构建完整LLM推理系统: 模型执行层 runtime与调度层 分布式推理系统 优化方向包括: 多GPU / 多节点扩展 NCCL通信性能 系统级性能调优 任职要求 基础要求 计算机、电子或相关专业硕士或博士在读(必须) 扎实的编程能力(Python 必须,C++加分) 熟悉PyTorch及Transformer模型 具备良好的算法与系统基础 可保证至少6个月实习期 加分项 具备以下任一经验: GPU编程(CUDA / Triton等) LLM推理框架(vLLM、TensorRT-LLM等) 分布式系统或并行计算 了解以下方向: GPU架构或性能分析 模型量化或压缩 MoE或大规模模型系统 我们期待你具备 能够完成从论文 → 实现 → 优化的闭环 对性能优化与系统问题有强烈兴趣 具备解决复杂技术问题的执行力 对大规模LLM系统如何高效运行有好奇心
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报