百度 2025 校招(运维)

提前批,免笔试

运维平台研发工程师(北京/上海 )
岗位职责:
* 负责智能运维相关产品的架构设计、核心功能研发及技术优化(预案管理、变更管理、容量管理、成本经营分析)
* 参与大语言模型在运维领域落地的相关研发工作,支持智能运维客服、智能故障诊断等产品落地
* 参与大语言模型微调、推理服务建设相关工作,探索构建公域及私域数据相结合的运维模型
* 持续学习和调研先进大模型应用技术和行业动态,关注竞品发展
岗位要求:
* 本科及以上学历,有一定程度的计算机相关专业知识背景
* 优秀的编码能力,熟悉Golang/Python至少一项,有扎实的算法及数据结构基础,有良好的编程习惯。
* 熟悉Vue/React等一种前端JS框架,对其源码有一定研究
* 熟悉kubernetes基本工作原理,对Langchain或其他大语言模型应用开发框架有一定理解者优先,有机器学习实践经验者优先
* 优秀的团队协作能力;具备较强的ownership,以结果为导向,善于思考并积极改进

SRE工程师(业务运维)(北京)
岗位职责:
* Site Reliability Engineer,负责百度公司大规模分布式系统及各类在线服务可靠、稳定、高效运行
* 参与在线系统和各类产品架构设计,主导服务可靠性相关自动化系统的实现,满足严格的质量与效率要求
* 设计研发服务运维解决方案,包括持续交付、容量管理、弹性计算、故障分析、流量分配、性能调优等
* 关注业界前沿技术动态,负责大规模流量接入系统的优化,演进和新接入技术探索和应用
* 使用AI技术解决超大规模互联网应用运维问题
岗位要求:
* 深入理解Linux操作系统;具备较好的计算机网络和体系结构基础
* 熟练掌握C/C++/Python/Go/Shell等至少一种主流编程语言
* 良好的逻辑思维和分析能力,热衷于解决问题、追求极致
* 强烈的责任心、进取心、团队合作精神和Ownership
* 专业不限,但更倾向于计算机、通信、数学等理工学科的应届毕业生
* 有大规模分布式程序设计开发经验优先

SRE工程师(AI大模型运维)(北京)
岗位职责:
* 负责大模型平台的基础设施(GPU/高性能网络等)的稳定性保障,并提升模型训练效率和效果;
* 负责模型训练过程中的硬件、算法、框架等故障定位,并推动对应大模型运维能力平台产品化建设;
* 负责大模型训练任务、基础设施的运维监控数据建设,建设产品可用性大盘;
* 关注业界动态,使用AI技术解决大模型稳定性问题,提升稳定性及训练过程高可用;
岗位要求:
* 了解大模型训练模式,了解ChatGPT/LLaMA等LLM语言模型,了解paddlepaddle/pyorch/tensorflow等一种训练框架;
* 了解GPU架构、cuda编程基础、大模型常用的并行策略和集合通信场景;
* 熟练掌握Python/Golang/Shell等至少一种主流编程语言
* 具有良好的逻辑思维和分析能力,热衷解决问题、追求极致;具有强烈的责任心、进取心、Ownership;
* 有K8S云原生平台的相关系统运维开发和稳定性建设经验者优先,有云产品/平台使用经验者优先;

SRE工程师(智能云运维)(北京)
岗位职责:
* Site Reliability Engineer,负责百度公司大规模分布式系统及各类云服务可靠、稳定、高效运行
* 参与百度智能云系统和各类产品架构设计,主导服务可用性相关平台/自动化系统的实现
* 设计研发智能云规模化运维的技术解决方案,包括服务器生命周期管理、高效交付、故障预测、成本管理等
* 关注业界前沿技术动态,熟悉os/kernel、openstack、kvm、分布式存储、虚拟化网络等相关技术,贡献与引领业界技术趋势
岗位要求:
* 深入理解Linux操作系统;具备较好的计算机网络和体系结构基础
* 熟练掌握Python/Go/Shell等至少一种主流编程语言
* 对云计算、虚拟机等技术有浓厚的兴趣优先,了解OpenStack、虚拟化网络、KVM、分布式存储等相关技术
* 具有良好的逻辑思维和分析能力,热衷解决问题、追求极致;具有强烈的责任心、进取心、Ownership;
* 专业不限,但更倾向于计算机、通信、数学等理工学科的应届毕业生

内推二维码如下:
全部评论
怎么投递
点赞 回复 分享
发布于 2024-07-12 16:50 江苏

相关推荐

07-17 23:39
同济大学 golang
混合云异构计算工程师工作职责-建设业界领先的AI异构算力容器平台,提供 高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融-结合 SOTA 模型训练推理优化原理,深入模 型结构与设计思路,将训练推理优化手段工程 实践化,为客户提供系统性加速方案,提升训 推效率-在自研芯片上适配常见大模型,结合深度学 习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进 行芯片选型和应用-针对大规模异构集群场景下,探索训推任务 管理、异构资源调度、虚拟化混布、容器存 储、高性能网络、分布式训练和推理等技术的 创新和应用-探索业界最新技术方向,参与机器学习框架 等开源社区,提升百度混合云AI核心竞争力任职资格-本科及以上学历,有一定程度的计算机相关 专业知识背景-优秀的编码能力,熟悉Golang/Python/ Java/C/C++至少一项,有扎实的算法及数据 结构基础,有良好的编程习惯。-熟悉PyTorch,了解Megatron、 DeepSpeed、vLLM、SGLang等大模型训推 框架,做过测试、开发等工作。-对GPU芯片架构有一定了解者优先,熟悉 CUDA、OpenCL等高性能计算编程经验优先,有大规模训练推理实践经验者优先-具备推理优化的深度实践经验优先: FlashAttention、PD分离、专家并行、负载均 衡、模型压缩(蒸馏/量化)、缓存策略、异 构计算加速-具备训练优化的深度实践经验优先:分布式训练、显存优化(如Zero/Offload)、计算通 信Overlap、混合精度、MoE架构调优-熟悉Kubernetes工作原理,熟悉调度器、资 源扩展机制、容器运行时、容器网络等技术, 有Kubernetes开发和维护经验优先-有独立的分析问题和解决问题的能力,有强 烈的责任心,较强的学习能力和沟通能力
投递百度等公司10个岗位
点赞 评论 收藏
分享
评论
2
10
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务