技术风险效能部AIGC专项-基础研发工程

我们关注建设高效、稳定的AI基础设施,为超大规模的分布式训练/推理提速、降本。
1. 万卡级别的混合云、跨集群调度,负责GPU/NPU/CPU等异构资源的最优编排,支持潮汐、混部等资源的稳定高效利用;
2. 通过AI引擎、调度系统和异构硬件的co-design,突破LLM/AIGC等机器学习任务的算力和性能瓶颈;
3. 探索下一代AI Infra的计算、存储、网络架构及AI应用的通信、I/O效率优化方案,并系统化落地。

要求
1. 具备良好的Go或者C++编程能力,熟练掌握数据结构和算法设计,熟悉Linux/Unix系统;
2. 熟悉Docker及Kubernetes,有Kubernetes operator/crds 开发经验者优先;
3. 了解 Pytorch/Tensorflow 等机器学习框架,熟悉DeepSpeed/Megatron/Ray/FasterTransformer 等分布式训练/推理引擎者优先;
4. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等HPC相关的知识;有AI分布式系统研发、AI编译优化相关经验者优先
全部评论

相关推荐

06-11 17:39
门头沟学院 Java
小呆呆的大鼻涕:卧槽,用户彻底怒了
点赞 评论 收藏
分享
06-07 19:59
门头沟学院 C++
补药卡我啊😭:都快15年前的了还在11新特性
你的简历改到第几版了
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务