大模型推理框架实习生
岗位职责:
1.基于 vLLM/SGLang/LMDeploy 等开源推理框架,进行自研推理引擎的功能对比测试
2.基于前沿推理加速技术,在自研推理框架上做功能验证:
动态批处理优化(Continuous Batching)
PageAttention 显存管理
推测解码(Speculative Decoding)
块预填充(Chunk Prefill)
Prefix Caching 优化
3.对 Qwen3 Moe/DeepSeek-R1/Qwen-VL 等模型进行算子级精度验证,确保自研框架输出精度达标
4.编写技术文档,输出自研推理框架在自研硬件上的精度Benchmark报告
岗位要求:
1.深入理解至少1个开源推理框架(vLLM/LMDeploy/SGLang 核心机制)
2.熟悉大模型推理全流程:Tokenization→Prefill→Decoding→Sampling
3.掌握 PageAttention/KV Cache 等显存优化原理,了解 FlashAttention 加速技术
4.具备PyTorch CUDA扩展开发能力,能调试模型计算图
加分项:
1.参与过vLLM、SGLang等实际开发部署项目
2.了解芯片架构(如NPU/GPU)
3.每周保证4天以上,实习周期3个月及以上
我们提供:
1.深入自研AI芯片与大模型协同优化的前沿战场
2.导师1v1指导,接触业界最新大模型推理优化技术
3.表现优异者,可签订正式合同。
联系方式: **********
1.基于 vLLM/SGLang/LMDeploy 等开源推理框架,进行自研推理引擎的功能对比测试
2.基于前沿推理加速技术,在自研推理框架上做功能验证:
动态批处理优化(Continuous Batching)
PageAttention 显存管理
推测解码(Speculative Decoding)
块预填充(Chunk Prefill)
Prefix Caching 优化
3.对 Qwen3 Moe/DeepSeek-R1/Qwen-VL 等模型进行算子级精度验证,确保自研框架输出精度达标
4.编写技术文档,输出自研推理框架在自研硬件上的精度Benchmark报告
岗位要求:
1.深入理解至少1个开源推理框架(vLLM/LMDeploy/SGLang 核心机制)
2.熟悉大模型推理全流程:Tokenization→Prefill→Decoding→Sampling
3.掌握 PageAttention/KV Cache 等显存优化原理,了解 FlashAttention 加速技术
4.具备PyTorch CUDA扩展开发能力,能调试模型计算图
加分项:
1.参与过vLLM、SGLang等实际开发部署项目
2.了解芯片架构(如NPU/GPU)
3.每周保证4天以上,实习周期3个月及以上
我们提供:
1.深入自研AI芯片与大模型协同优化的前沿战场
2.导师1v1指导,接触业界最新大模型推理优化技术
3.表现优异者,可签订正式合同。
联系方式: **********
全部评论
相关推荐
查看8道真题和解析 点赞 评论 收藏
分享
点赞 评论 收藏
分享
03-19 17:53
武汉大学 算法工程师
暴杀流调参工作者:春招又试了一些岗位,现在投递很有意思,不仅要精心准备简历,投递官网还得把自己写的东西一条一条复制上去,阿里更是各个bu都有自己的官网,重复操作无数次,投完简历卡完学历了,又该写性格测评、能力测评,写完了又要写专业笔试,最近还有些公司搞了AI辅助编程笔试,有些还有AI面试,对着机器人话也听不明白录屏硬说,终于到了人工面试又要一二三四面,小组成员面主管面部门主管面hr面,次次都没出错机会,稍有不慎就是挂。
卡学历卡项目卡论文卡实习什么都卡,没有不卡的😂 点赞 评论 收藏
分享
