- 岗位职责
团队介绍:
调度团队负责公司内部集群资源管理和调度, 支撑了推荐/数仓/搜索/广告等众多核心业务, 管理着在集群规模、调度吞吐能力、资源利用率、业务复杂性等多个方向上都在业界领先的YARN集群和K8S集群。
针对公司内的抖音、今日头条等产口重度依赖推荐的特点, 调度团队对调度器进行了深度定制以支持流式(Flink)训练和GPU训练等场景。同时为了进一步提升集群资源利用率,调度团队已经开启在离线大规模混部,并且预期在不久后会进一步融合 YARN / K8S 等调度系统。
岗位职责:
1、参与构建高效、稳定的集群资源管理系统,在资源隔离,资源利用率提升方面进行优化;
2、参与解决规模增长带来的技术和业务问题,负责集群的可用性、稳定性以及性能优化;
3、面向公司内特有场景, 参与落地实现更合理的自研系统架构, 解决通用业务问题;
4、参与大规模在线&离线混合部署场景下的资源调度及系统融合;
- 岗位要求
1、自认为是技术Geek,具备很强的问题解决能力;
2、精通Java/C++/Go等编程语言之一或多个;
3、具备扎实的计算机理论基础, 对数据结构及算法有较强的功底;
4、具备大规模分布式系统的研发和优化能力;
具备以下条件者加分:
1、深入了解 YARN / Kubernetes / Spark / Flink 等系统, 或在社区有过相关代码贡献;
2、深入了解 Docker / LXC 等容器化技术;
3、深入了解 Linux Kernel;
4、对机器学习训练框架 Submarine / Kubeflow 等有深入研究和经验者优先;
5、有大型分布式系统的实践管理经验, 或对业界计算基础设施动向有较强的热情。
实习岗位JD可参照社招JD,方向相同,但招聘难度有异。
欢迎21届有意向参与春招、22届及22届以后的同学来实习!