AI系统与LLM推理优化实习生
280-380元/天
人工智能 上海 硕士 4天/周 最少6个月

岗位关键词
投递时间:2026年4月29日-2026年6月29日
岗位职责
职位概述
我们正在构建新一代大语言模型(LLM)推理系统,重点聚焦三个核心方向:
● GPU Kernel 与 Triton 类编程模型优化
● 高性能推理框架(Inference Framework)优化
● LLM 与 MoE 模型层优化
这是一个研究 + 工程结合的岗位,你将参与完整技术栈:
模型 → Kernel → 运行时 → 分布式系统,共同打造端到端的AI机架级推理软件系统。
主要职责
1. Triton与Kernel层优化
● 使用以下技术开发高性能GPU算子:
● Triton类编程模型
● CUDA或其他底层框架
● 优化关键计算路径:
● Attention及核心Tensor算子
● 内存访问模式与数据布局
● Kernel融合与执行效率
● 探索面向深度学习的编译器式优化方法
2. 推理框架优化(Inference Framework)
● 使用并优化主流LLM推理框架:
● vLLM、TensorRT-LLM、FasterTransformer等
● 设计和优化:
● batching与调度策略
● runtime执行效率
● 多模型与pipeline推理
● 分析系统瓶颈并进行端到端性能优化
3. 模型层优化(LLM & MoE)
● 实现并评估以下技术:
● KV cache优化与内存管理
● 动态/连续batching
● Speculative decoding
● 量化(INT8 / FP8 / 低比特)
● 探索混合专家模型及推理优化:
● 路由策略与负载均衡
● 专家并行与切分
● 通信与计算开销权衡
4. 研究与系统集成
● 阅读并复现前沿研究成果
● 将论文方法转化为可运行系统模块
● 在以下维度进行协同优化:
● 模型层
● Kernel层
● Runtime与分布式系统
5. 端到端系统开发
● 参与构建完整LLM推理系统:
● 模型执行层
● runtime与调度层
● 分布式推理系统
● 优化方向包括:
● 多GPU / 多节点扩展
● NCCL通信性能
● 系统级性能调优
任职要求
基础要求
● 计算机、电子或相关专业硕士或博士在读(必须)
● 扎实的编程能力(Python 必须,C++加分)
● 熟悉PyTorch及Transformer模型
● 具备良好的算法与系统基础
● 可保证至少6个月实习期
加分项
● 具备以下任一经验:
● GPU编程(CUDA / Triton等)
● LLM推理框架(vLLM、TensorRT-LLM等)
● 分布式系统或并行计算
● 了解以下方向:
● GPU架构或性能分析
● 模型量化或压缩
● MoE或大规模模型系统
我们期待你具备
● 能够完成从论文 → 实现 → 优化的闭环
● 对性能优化与系统问题有强烈兴趣
● 具备解决复杂技术问题的执行力
● 对大规模LLM系统如何高效运行有好奇心
岗位要求
职位概述
我们正在构建新一代大语言模型(LLM)推理系统,重点聚焦三个核心方向:
GPU Kernel 与 Triton 类编程模型优化
高性能推理框架(Inference Framework)优化
LLM 与 MoE 模型层优化
这是一个研究 + 工程结合的岗位,你将参与完整技术栈:
模型 → Kernel → 运行时 → 分布式系统,共同打造端到端的AI机架级推理软件系统。
主要职责
1. Triton与Kernel层优化
使用以下技术开发高性能GPU算子:
Triton类编程模型
CUDA或其他底层框架
优化关键计算路径:
Attention及核心Tensor算子
内存访问模式与数据布局
Kernel融合与执行效率
探索面向深度学习的编译器式优化方法
2. 推理框架优化(Inference Framework)
使用并优化主流LLM推理框架:
vLLM、TensorRT-LLM、FasterTransformer等
设计和优化:
batching与调度策略
runtime执行效率
多模型与pipeline推理
分析系统瓶颈并进行端到端性能优化
3. 模型层优化(LLM & MoE)
实现并评估以下技术:
KV cache优化与内存管理
动态/连续batching
Speculative decoding
量化(INT8 / FP8 / 低比特)
探索混合专家模型及推理优化:
路由策略与负载均衡
专家并行与切分
通信与计算开销权衡
4. 研究与系统集成
阅读并复现前沿研究成果
将论文方法转化为可运行系统模块
在以下维度进行协同优化:
模型层
Kernel层
Runtime与分布式系统
5. 端到端系统开发
参与构建完整LLM推理系统:
模型执行层
runtime与调度层
分布式推理系统
优化方向包括:
多GPU / 多节点扩展
NCCL通信性能
系统级性能调优
任职要求
基础要求
计算机、电子或相关专业硕士或博士在读(必须)
扎实的编程能力(Python 必须,C++加分)
熟悉PyTorch及Transformer模型
具备良好的算法与系统基础
可保证至少6个月实习期
加分项
具备以下任一经验:
GPU编程(CUDA / Triton等)
LLM推理框架(vLLM、TensorRT-LLM等)
分布式系统或并行计算
了解以下方向:
GPU架构或性能分析
模型量化或压缩
MoE或大规模模型系统
我们期待你具备
能够完成从论文 → 实现 → 优化的闭环
对性能优化与系统问题有强烈兴趣
具备解决复杂技术问题的执行力
对大规模LLM系统如何高效运行有好奇心
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报