算法工程师

200-400元/天
算法工程师
北京
本科
5天/周
最少3个月
岗位关键词
岗位职责
岗位职责: 1、负责昇腾云计算、网络的创新技术项目研发,完成业界最新技术的探索与产品转化,涵盖新服务孵化,原有服务架构升级,性能优化等多个方面; 2、跟踪洞察业界最新技术发展方向,完成技术分析与原型验证相关工作。 具体方向: 1.网络可靠性研究与优化:深入探索分布式训练环境中的网络架构和协议,提升数据传输的稳定性和效率。 2.训练故障定位与分析:深入分析故障原因,提出并实施有效的解决方案,提高系统的稳定性和可用性,探索大模型、agent、RAG等技术在具体场景下的应用。 3.分布式训练容错机制设计:研究并设计分布式训练中的容错策略,如数据冗余、任务重试等,确保训练任务在故障发生时的连续性。评估和优化现有容错机制的性能,提高系统的恢复能力和容错能力。 4.分布式训练架构优化:深入分析现有分布式训练架构的瓶颈和限制,提出并实施优化方案。探索并应用最新的分布式系统架构设计理念和技术。评估和优化训练任务的资源分配和调度策略,提高资源利用率和训练效率。 5.分布式训练优化技术研究: 探索并应用先进的分布式训练优化算法和技术,如梯度压缩、模型并行化等,提升训练速度和资源利用率。参与分布式训练平台的性能调优工作,持续推动平台性能的提升。
岗位要求
1.计算机科学、软件工程、信息技术等相关专业的本科或研究生在读学生。 2.对人工智能、大数据处理、分布式训练、分布式集群、大模型训练等领域有浓厚兴趣。 3.熟悉计算机网络原理和相关协议,掌握Python、Java等至少一种编程语言,具备良好的编程能力。对分布式系统、并行计算、机器学习、大模型等有一定的理论基础和实践经验。 4.具备良好的问题解决能力和逻辑思维能力,能够独立分析和解决问题。 加分项: 1.有大型分布式系统的演进、异常定位与发现、性能调优、资源优化等相关经验。 2.了解深度学习分布式优化方法,熟悉Ray、Megatron, DeepSpeed、vLLM、MMDeploy等大模型分布式推理框架的优先; 3.熟悉TensorFlow、PyTorch等深度学习框架,以及Kubernetes、Docker等容器化技术。 4.有良好的英语阅读和写作能力,能够熟练查阅英文技术文档和资料。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
华为技术有限公司
硬件
不需要融资
深圳
查看其他 516 个职位