技术风险效能部AIGC专项-基础研发工程
我们关注建设高效、稳定的AI基础设施,为超大规模的分布式训练/推理提速、降本。
1. 万卡级别的混合云、跨集群调度,负责GPU/NPU/CPU等异构资源的最优编排,支持潮汐、混部等资源的稳定高效利用;
2. 通过AI引擎、调度系统和异构硬件的co-design,突破LLM/AIGC等机器学习任务的算力和性能瓶颈;
3. 探索下一代AI Infra的计算、存储、网络架构及AI应用的通信、I/O效率优化方案,并系统化落地。
要求
1. 具备良好的Go或者C++编程能力,熟练掌握数据结构和算法设计,熟悉Linux/Unix系统;
2. 熟悉Docker及Kubernetes,有Kubernetes operator/crds 开发经验者优先;
3. 了解 Pytorch/Tensorflow 等机器学习框架,熟悉DeepSpeed/Megatron/Ray/FasterTransformer 等分布式训练/推理引擎者优先;
4. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等HPC相关的知识;有AI分布式系统研发、AI编译优化相关经验者优先
1. 万卡级别的混合云、跨集群调度,负责GPU/NPU/CPU等异构资源的最优编排,支持潮汐、混部等资源的稳定高效利用;
2. 通过AI引擎、调度系统和异构硬件的co-design,突破LLM/AIGC等机器学习任务的算力和性能瓶颈;
3. 探索下一代AI Infra的计算、存储、网络架构及AI应用的通信、I/O效率优化方案,并系统化落地。
要求
1. 具备良好的Go或者C++编程能力,熟练掌握数据结构和算法设计,熟悉Linux/Unix系统;
2. 熟悉Docker及Kubernetes,有Kubernetes operator/crds 开发经验者优先;
3. 了解 Pytorch/Tensorflow 等机器学习框架,熟悉DeepSpeed/Megatron/Ray/FasterTransformer 等分布式训练/推理引擎者优先;
4. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等HPC相关的知识;有AI分布式系统研发、AI编译优化相关经验者优先
全部评论
相关推荐