大模型推理框架实习生

  岗位职责:

1.基于 vLLM/SGLang/LMDeploy 等开源推理框架,进行自研推理引擎的功能对比测试

2.基于前沿推理加速技术,在自研推理框架上做功能验证:

动态批处理优化(Continuous Batching)
PageAttention 显存管理
推测解码(Speculative Decoding)
块预填充(Chunk Prefill)
Prefix Caching 优化

3.对 Qwen3 Moe/DeepSeek-R1/Qwen-VL 等模型进行算子级精度验证,确保自研框架输出精度达标

4.编写技术文档,输出自研推理框架在自研硬件上的精度Benchmark报告

岗位要求:

1.深入理解至少1个开源推理框架(vLLM/LMDeploy/SGLang 核心机制)

2.熟悉大模型推理全流程:Tokenization→Prefill→Decoding→Sampling

3.掌握 PageAttention/KV Cache 等显存优化原理,了解 FlashAttention 加速技术

4.具备PyTorch CUDA扩展开发能力,能调试模型计算图

加分项:

1.参与过vLLM、SGLang等实际开发部署项目

2.了解芯片架构(如NPU/GPU)

3.每周保证4天以上,实习周期3个月及以上
我们提供:

1.深入自研AI芯片与大模型协同优化的前沿战场

2.导师1v1指导,接触业界最新大模型推理优化技术

3.表现优异者,可签订正式合同。
联系方式: **********
全部评论

相关推荐

不愿透露姓名的神秘牛友
2025-12-18 11:21
优秀的大熊猫在okr...:叫你朋友入职保安,你再去送外卖,一个从商,一个从政,你们两联手无敌了,睁开你的眼睛看看,现在是谁说了算(校长在背后瑟瑟发抖)
选实习,你更看重哪方面?
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务