HPC运维工程师

薪资面议

运维工程师

不限

3-5年

吴先生

成都天玑算科技有限公司·人事主管

反馈率：100% | 反馈时长：4天

岗位关键词

岗位职责

1、负责 HPC 高性能计算集群的搭建、优化、运维，保障计算资源的高效稳定运行。 2、维护和优化 Slurm 任务调度系统，实现 HPC 作业的高效调度和资源管理。 3、负责 InfiniBand（IB）网络及 RDMA 调优，提升集群网络通信性能。 4、通过 Slurm + 仿真软件（如 Ansys、MATLAB、COMSOL、RStudio）实现图形化远程计算应用支持。 5、负责存储系统（Lustre、BeeGFS、Ceph）的管理和优化，提升 HPC 计算存储性能。 6、监控 HPC 集群的运行状态，使用 Prometheus + Grafana 进行性能分析和故障排查。 7、对 OpenMPI、MVAPICH、Intel MPI 等进行优化调优，提高并行计算效率。 8、撰写相关技术文档，优化 HPC 集群运维流程，提升集群可靠性和效率。

岗位要求

【任职要求】 1、计算机、物理、数学、计算材料、计算化学或相关专业，本科学历及以上，5 年以上 HPC 运维经验。 2、熟练使用 Slurm 进行任务调度，掌握多租户管理、作业优先级、资源预留等机制。 3、熟悉 HPC 集群部署工具（xCAT、OpenHPC），能快速完成计算节点的批量部署和配置。 4、精通 OpenMPI、MVAPICH、Intel MPI 等并行计算框架，并具备调优经验。 5、熟悉 GCC、Intel Compiler、AOCC 等编译工具，能优化并编译HPC相关软件。 6、熟悉 InfiniBand（IB）网络调优，具备 RDMA、OFED、RoCE 配置和优化能力。 7、掌握 Docker、Apptainer（Singularity），并能够在 HPC 环境中运行容器化应用。 8、熟悉 HPC 领域常用仿真软件（如 Ansys、Gaussian、VASP、CP2K、COMSOL），具备编译、安装、调优经验。 9、熟悉 Linux 系统管理，能编写 Shell / Python / Ansible 脚本进行自动化运维。 10、了解 HPC 存储系统（Lustre、BeeGFS、Ceph），并具备存储性能优化经验。 11、具备系统监控经验，能使用 Prometheus + Grafana 进行 HPC 资源监控。【加分项】 1、具备大规模 HPC 超算运维经验（>1000 节点） 2、了解 AI 计算集群和 GPU 加速计算（CUDA、TensorRT、MPI-GPU） 3、具备编译优化经验（GCC、Intel Compiler、AOCC、LLVM） 4、熟悉 HTCondor、PBS Pro、LSF 等 HPC 调度系统 5、参与过 HPC 相关开源项目贡献

成都高新西区IC产业园

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

天玑算

企业服务

未融资

成都市

查看其他 0 个职位

0 笔试题目 0 面试经验 0 面试短评