AI系统与LLM推理优化实习生

280-380元/天

人工智能

硕士

4天/周

最少6个月

郑女士昨日在线

英特尔半导体（大连）有限公司·招聘顾问

反馈率：55% | 反馈时长：4天

岗位关键词

投递时间：2026年4月29日-2026年6月29日

岗位职责

职位概述我们正在构建新一代大语言模型（LLM）推理系统，重点聚焦三个核心方向： ● GPU Kernel 与 Triton 类编程模型优化 ● 高性能推理框架（Inference Framework）优化 ● LLM 与 MoE 模型层优化这是一个研究 + 工程结合的岗位，你将参与完整技术栈：模型 → Kernel → 运行时 → 分布式系统，共同打造端到端的AI机架级推理软件系统。主要职责 1. Triton与Kernel层优化 ● 使用以下技术开发高性能GPU算子： ● Triton类编程模型 ● CUDA或其他底层框架 ● 优化关键计算路径： ● Attention及核心Tensor算子 ● 内存访问模式与数据布局 ● Kernel融合与执行效率 ● 探索面向深度学习的编译器式优化方法 2. 推理框架优化（Inference Framework） ● 使用并优化主流LLM推理框架： ● vLLM、TensorRT-LLM、FasterTransformer等 ● 设计和优化： ● batching与调度策略 ● runtime执行效率 ● 多模型与pipeline推理 ● 分析系统瓶颈并进行端到端性能优化 3. 模型层优化（LLM & MoE） ● 实现并评估以下技术： ● KV cache优化与内存管理 ● 动态/连续batching ● Speculative decoding ● 量化（INT8 / FP8 / 低比特） ● 探索混合专家模型及推理优化： ● 路由策略与负载均衡 ● 专家并行与切分 ● 通信与计算开销权衡 4. 研究与系统集成 ● 阅读并复现前沿研究成果 ● 将论文方法转化为可运行系统模块 ● 在以下维度进行协同优化： ● 模型层 ● Kernel层 ● Runtime与分布式系统 5. 端到端系统开发 ● 参与构建完整LLM推理系统： ● 模型执行层 ● runtime与调度层 ● 分布式推理系统 ● 优化方向包括： ● 多GPU / 多节点扩展 ● NCCL通信性能 ● 系统级性能调优任职要求基础要求 ● 计算机、电子或相关专业硕士或博士在读（必须） ● 扎实的编程能力（Python 必须，C++加分） ● 熟悉PyTorch及Transformer模型 ● 具备良好的算法与系统基础 ● 可保证至少6个月实习期加分项 ● 具备以下任一经验： ● GPU编程（CUDA / Triton等） ● LLM推理框架（vLLM、TensorRT-LLM等） ● 分布式系统或并行计算 ● 了解以下方向： ● GPU架构或性能分析 ● 模型量化或压缩 ● MoE或大规模模型系统我们期待你具备 ● 能够完成从论文 → 实现 → 优化的闭环 ● 对性能优化与系统问题有强烈兴趣 ● 具备解决复杂技术问题的执行力 ● 对大规模LLM系统如何高效运行有好奇心

岗位要求

职位概述我们正在构建新一代大语言模型（LLM）推理系统，重点聚焦三个核心方向： GPU Kernel 与 Triton 类编程模型优化高性能推理框架（Inference Framework）优化 LLM 与 MoE 模型层优化这是一个研究 + 工程结合的岗位，你将参与完整技术栈：模型 → Kernel → 运行时 → 分布式系统，共同打造端到端的AI机架级推理软件系统。主要职责 1. Triton与Kernel层优化使用以下技术开发高性能GPU算子： Triton类编程模型 CUDA或其他底层框架优化关键计算路径： Attention及核心Tensor算子内存访问模式与数据布局 Kernel融合与执行效率探索面向深度学习的编译器式优化方法 2. 推理框架优化（Inference Framework）使用并优化主流LLM推理框架： vLLM、TensorRT-LLM、FasterTransformer等设计和优化： batching与调度策略 runtime执行效率多模型与pipeline推理分析系统瓶颈并进行端到端性能优化 3. 模型层优化（LLM & MoE）实现并评估以下技术： KV cache优化与内存管理动态/连续batching Speculative decoding 量化（INT8 / FP8 / 低比特）探索混合专家模型及推理优化：路由策略与负载均衡专家并行与切分通信与计算开销权衡 4. 研究与系统集成阅读并复现前沿研究成果将论文方法转化为可运行系统模块在以下维度进行协同优化：模型层 Kernel层 Runtime与分布式系统 5. 端到端系统开发参与构建完整LLM推理系统：模型执行层 runtime与调度层分布式推理系统优化方向包括：多GPU / 多节点扩展 NCCL通信性能系统级性能调优任职要求基础要求计算机、电子或相关专业硕士或博士在读（必须）扎实的编程能力（Python 必须，C++加分）熟悉PyTorch及Transformer模型具备良好的算法与系统基础可保证至少6个月实习期加分项具备以下任一经验： GPU编程（CUDA / Triton等） LLM推理框架（vLLM、TensorRT-LLM等）分布式系统或并行计算了解以下方向： GPU架构或性能分析模型量化或压缩 MoE或大规模模型系统我们期待你具备能够完成从论文 → 实现 → 优化的闭环对性能优化与系统问题有强烈兴趣具备解决复杂技术问题的执行力对大规模LLM系统如何高效运行有好奇心

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

英特尔

研究所

未融资

上海市

查看其他 40 个职位

1 笔试题目 61 面试经验 1 面试短评