HPC运维工程师
薪资面议
运维工程师 成都 不限 3-5年

岗位关键词
岗位职责
1、负责 HPC 高性能计算集群 的搭建、优化、运维,保障计算资源的高效稳定运行。
2、维护和优化 Slurm 任务调度系统,实现 HPC 作业的高效调度和资源管理。
3、负责 InfiniBand(IB)网络 及 RDMA 调优,提升集群网络通信性能。
4、通过 Slurm + 仿真软件(如 Ansys、MATLAB、COMSOL、RStudio)实现图形化远程计算应用支持。
5、负责 存储系统(Lustre、BeeGFS、Ceph) 的管理和优化,提升 HPC 计算存储性能。
6、监控 HPC 集群的运行状态,使用 Prometheus + Grafana 进行性能分析和故障排查。
7、对 OpenMPI、MVAPICH、Intel MPI 等进行优化调优,提高并行计算效率。
8、撰写相关技术文档,优化 HPC 集群运维流程,提升集群可靠性和效率。
岗位要求
【任职要求】
1、计算机、物理、数学、计算材料、计算化学或相关专业,本科学历及以上,5 年以上 HPC 运维经验。
2、熟练使用 Slurm 进行任务调度,掌握多租户管理、作业优先级、资源预留等机制。
3、熟悉 HPC 集群部署工具(xCAT、OpenHPC),能快速完成计算节点的批量部署和配置。
4、精通 OpenMPI、MVAPICH、Intel MPI 等并行计算框架,并具备调优经验。
5、熟悉 GCC、Intel Compiler、AOCC 等编译工具,能优化并编译HPC相关软件。
6、熟悉 InfiniBand(IB)网络调优,具备 RDMA、OFED、RoCE 配置和优化能力。
7、掌握 Docker、Apptainer(Singularity),并能够在 HPC 环境中运行容器化应用。
8、熟悉 HPC 领域常用仿真软件(如 Ansys、Gaussian、VASP、CP2K、COMSOL),具备编译、安装、调优经验。
9、熟悉 Linux 系统管理,能编写 Shell / Python / Ansible 脚本进行自动化运维。
10、了解 HPC 存储系统(Lustre、BeeGFS、Ceph),并具备存储性能优化经验。
11、具备 系统监控 经验,能使用 Prometheus + Grafana 进行 HPC 资源监控。
【加分项】
1、具备 大规模 HPC 超算运维经验(>1000 节点)
2、了解 AI 计算集群 和 GPU 加速计算(CUDA、TensorRT、MPI-GPU)
3、具备 编译优化经验(GCC、Intel Compiler、AOCC、LLVM)
4、熟悉 HTCondor、PBS Pro、LSF 等 HPC 调度系统
5、参与过 HPC 相关开源项目贡献
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报