【26届校招】AI 系统青年研究员/开发工程师-系统平台中心
薪资面议
研发工程师 上海 不限

投递时间:2025年8月16日-2028年11月7日
岗位职责
-团队背景
系统框架团队(AISYS)聚焦国产算力环境下超大规模 AI 系统的自主可控与高效运行,作为 “连接国产硬件与 AI 业务的核心枢纽”,既需构建通用系统基础设施(如通信库、调度系统),支撑实验室大模型(如 Intern S1)、DeepLink 等核心业务落地;也需攻坚 AI 计算专项技术(如低精度计算、超节点架构、国产芯片适配),解决千亿参数模型训推的硬件瓶颈,目标成为 “国产 AI 计算系统领域的技术标杆 + 通用系统支撑的可靠底座”。
-岗位职责
1. 低精度计算技术研发:参与 FP8、FP4、MXFP8 等下一代低精度数值格式研发,优化 LLM、Diffusion 等模型在低精度下的训推效率;
2. 超节点集群系统优化:参与超节点(8 卡 +)集群上国产模型的训推任务,结合超节点架构特性(如互联拓扑、存储布局)研究训推加速技术,目标降低节点间通信耗时 30%+;
3. 芯片算力与互联适配:分析 NVIDIA、昇腾、寒武纪、海光等芯片的硬件特性(计算单元、存储层次、指令集),定位性能瓶颈并转化为系统优化策略(如算子拆分、数据预取);
4. 存储 - 计算耦合设计:针对千亿参数级模型,设计 “内存 - 显存 - NVMe” 三级存储协同方案(动态数据 offload 策略),解决内存溢出问题,优化存储访问模式(数据对齐、空间局部性利用)。
岗位要求
1. 本科及以上学历,计算机、微电子、自动化等相关专业;
2. 了解芯片硬件架构:深入理解 CUDA Core/Tensor Core/AI Core 等计算单元、L1/L2/HBM 存储层次,熟悉华为 CANN、NVIDIA CUDA 等算子接口,有国产芯片(昇腾、寒武纪)适配经验者优先;
3. 熟悉互联与分布式技术:熟悉 PCIe 5.0、NVLink、RoCE 等通信协议,了解 MPI、NCCL、BytePS 等分布式计算范式,有异构芯片集群(如 “NVIDIA GPU + 昇腾 910”)优化经验者优先;
4. 具备存储优化能力:有 AI 负载存储层级优化经验,能设计大规模模型的动态 offload 策略,解决超大规模训练内存问题者优先;
5. 结果导向:能快速定位系统性能瓶颈,推动技术方案落地,有低精度计算或超节点系统项目经验者优先。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报