AI Infra研发
400-500元/天
后端工程师 上海 硕士 5天/周 最少2个月 有转正

岗位关键词
投递时间:2026年4月22日-2026年6月14日
岗位职责
在本岗位,您将有机会深入基础设施技术本质,同时驱动大模型与业务高效落地,具体将参与:
1. 大模型训练与推理基础设施研发:参与构建和优化面向大规模分布式训练/推理的Infra平台,支持文本、图像、视频、语音等多模态大模型、扩散模型的训练与推理。涵盖集群资源调度、训练框架优化、高性能通信、混合精度训练、显存优化等关键环节,确保模型的训练效率与系统稳定性。
2. 前沿Infra技术探索与创新:持续跟踪并攻关大模型基础设施领域的前沿方向(如:超大规模异构集群管理、更高效的并行策略、MoE训练/推理优化、量化与推理加速框架、多模态模型高效并行策略等),通过系统创新显著提升训练吞吐、降低推理成本、改善资源利用率。
3. 大模型基础设施应用落地与赋能:将先进的Infra能力与公司大模型业务场景深度结合,主导技术方案的设计与实现,具体支持方向包括但不限于:
。训练效率提升:支持Pretrain、SFT、RLHF等全流程训练任务,优化端到端训练性能;
。推理服务优化:构建高并发、低延迟的在线推理平台,支持多模态大模型的实时服务;
。成本与弹性优化:实现智能资源调度、Spot实例利用、自动扩缩容等,显著降低大模型训练与推理的算力成本;
。稳定性保障:打造高可用、故障自愈的分布式训练系统,确保7×24小时稳定运行;
4. 技术价值闭环:深度理解大模型训练与业务需求,利用平台海量算力与数据资源,推动Infra技术创新落地,并通过性能指标、成本指标、实验验证等科学方法衡量技术价值,最终为大模型研发提效、降本,并支撑业务增长。
岗位要求
1. 教育背景:2026.9-2027.8期间已获得或即将获得博士/硕士学位的同学,计算机科学、软件工程、电子信息、自动化等相关专业优先。
2. 技术根基:
。具备扎实的计算机系统基础(操作系统、计算机网络、分布式系统、编译原理等),出色的编程能力和工程实现能力(熟练掌握C/C++、Python,熟悉Go/Rust者优先)
。深入理解大规模分布式系统原理,熟悉至少一种主流大模型训练/推理框架(PyTorch、Megatron、DeepSpeed、vLLM、TVM等)
。有GPU/异构集群相关经验者优先,熟悉RDMA、NVLink、InfiniBand等高性能网络者优先
3. 创新与问题解决能力:具备极强的学习能力、主动性和系统性思维,能够独立分析和解决复杂工程与性能问题,对将系统优化技术应用于大模型场景充满热情。
4. 成果导向:在学术或工业项目中有突出表现者优先,例如但不限于:
。在系统/架构相关顶级会议/期刊发表过论文
。在ACM/ICPC、知名编程或系统竞赛中获奖
。主导或深度参与过高性能计算、分布式系统、大模型训练平台等具有较大技术影响力的项目
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报