大模型推理KV Cache系统:从存储架构到软硬协同的全栈演进-阿里星-阿里巴巴2027届实习生
薪资面议
后端工程师 杭州/北京 本科

投递时间:2026年4月24日-2027年4月24日
岗位职责
大模型推理的成本与效率是行业核心挑战,而 KV Cache 管理是突破瓶颈的关键。本岗位将主导构建下一代 LLM 推理存储架构,融合算法优化、系统调度与硬件感知能力,打造高弹性、低成本、高可用的推理基础设施,支撑公司核心大模型业务的规模化落地。
1. 负责设计和实现面向大规模推理的存储系统,深度融合推理引擎,构建从显存、本地内存至分布式冷存储的全局多级存储池;
2. 基于特征识别实现数据的智能调度与分布管理,推动计算存储分离、弹性资源池等核心能力落地,建立高扩展、高可靠的推理存储系统底座;
3. 定义存储与推理引擎间的统一数据访问抽象层,通过零侵入式接口设计实现计算存储解耦,为多级缓存、预取调度等高级策略提供标准化支撑;
4. 建立 KV Cache 资源评估与治理体系,通过数据驱动的方式识别优化空间,在保障服务品质的前提下持续降低推理成本、提升资源 ROI;
5. 联合上下游团队,深入 KV Cache 全栈优化和技术攻关,建立端到端 KV Cache 系统;
6. 跟踪学术界与工业界 KV Cache 最新进展,推动量化、压缩、调度等创新技术在大规模生产环境中的落地。
岗位要求
1. 博士在读或即将毕业,计算机科学、数据库、人工智能、机器学习等相关专业背景;
2. 在大模型推理、数据库和存储等领域有深入研究和系统实践经验。熟悉分布式系统原理,熟悉各类存储协议和硬件特性;
3. 具备扎实的计算机基础,具备良好的编程能力和编程规范,熟悉 C/C++/Python/Go/Rust 至少一门语言;
4. 学习能力强,自驱、专注、善于拆解复杂问题并推动工程落地,愿意思考问题本质,具备质疑精神;具备良好的学术研究与工程化落地能力。
加分项:
1. 有大模型推理 KV Cache 相关的研究或技术落地经验;
2. 在国际顶会(如 NeurIPS、ICML、VLDB、FAST、SIGMOD 等)发表过高水平论文;
3. 参与过推理引擎开源社区(如 vLLM、SGLang 等);参与过数据库/存储等相关实践或开源项目;
4. 熟悉分布式缓存系统,例如(Redis、Alluxio、JuiceFS);
5. 熟悉NVLink、RDMA、NCCL、GPU Direct等技术,有GPU 和存储性能优化经验。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报