大模型推理KV Cache系统：从存储架构到软硬协同的全栈演进-阿里星-阿里巴巴2027届实习生

薪资面议

后端工程师

本科

卢先生 6分钟前在线

阿里巴巴集团·高级招聘经理

投递时间：2026年4月24日-2027年4月24日

岗位职责

大模型推理的成本与效率是行业核心挑战，而 KV Cache 管理是突破瓶颈的关键。本岗位将主导构建下一代 LLM 推理存储架构，融合算法优化、系统调度与硬件感知能力，打造高弹性、低成本、高可用的推理基础设施，支撑公司核心大模型业务的规模化落地。 1. 负责设计和实现面向大规模推理的存储系统，深度融合推理引擎，构建从显存、本地内存至分布式冷存储的全局多级存储池； 2. 基于特征识别实现数据的智能调度与分布管理，推动计算存储分离、弹性资源池等核心能力落地，建立高扩展、高可靠的推理存储系统底座； 3. 定义存储与推理引擎间的统一数据访问抽象层，通过零侵入式接口设计实现计算存储解耦，为多级缓存、预取调度等高级策略提供标准化支撑； 4. 建立 KV Cache 资源评估与治理体系，通过数据驱动的方式识别优化空间，在保障服务品质的前提下持续降低推理成本、提升资源 ROI； 5. 联合上下游团队，深入 KV Cache 全栈优化和技术攻关，建立端到端 KV Cache 系统； 6. 跟踪学术界与工业界 KV Cache 最新进展，推动量化、压缩、调度等创新技术在大规模生产环境中的落地。

岗位要求

1. 博士在读或即将毕业，计算机科学、数据库、人工智能、机器学习等相关专业背景； 2. 在大模型推理、数据库和存储等领域有深入研究和系统实践经验。熟悉分布式系统原理，熟悉各类存储协议和硬件特性； 3. 具备扎实的计算机基础，具备良好的编程能力和编程规范，熟悉 C/C++/Python/Go/Rust 至少一门语言； 4. 学习能力强，自驱、专注、善于拆解复杂问题并推动工程落地，愿意思考问题本质，具备质疑精神；具备良好的学术研究与工程化落地能力。加分项： 1. 有大模型推理 KV Cache 相关的研究或技术落地经验； 2. 在国际顶会（如 NeurIPS、ICML、VLDB、FAST、SIGMOD 等）发表过高水平论文； 3. 参与过推理引擎开源社区（如 vLLM、SGLang 等）；参与过数据库/存储等相关实践或开源项目； 4. 熟悉分布式缓存系统，例如（Redis、Alluxio、JuiceFS）； 5. 熟悉NVLink、RDMA、NCCL、GPU Direct等技术，有GPU 和存储性能优化经验。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里巴巴集团

电商

不需要融资

杭州市

查看其他 506 个职位

0 笔试题目 4473 面试经验 2538 面试短评