阶跃星辰-大模型智算集群系统研发

正/在/热/招
JOIN
US
阶跃星辰
[实习]大模型智算集群系统研发
上海市 北京市
职位描述岗位职责:
1.参与大规模大模型训练/推理系统的故障诊断与根因分析,构建自动化异常检测系统
2.研发面向大规模异构智算集群(GPU/NPU)的智能管理系统
3.优化RoCE网络协议栈性能,解决大规模 pretrain/post-train/RL等场景下的网络拥塞与稳定性问题
4.开发集群健康度监测、自动化运维等工具链,提升大规模集群运维效率
核心能力要求:
1.对分布式系统与集群有强烈好奇心,享受"折腾"复杂系统的过程
2.具备自主问题拆解能力,能通过debug/源码
分析定位系统级问题
3.对性能优化有执念,擅长通过数据分析和压力测试发现系统瓶颈技能点要求:
1.熟练掌握Golang/Python/C++至少一门语言
2.深入理解网络协议栈(熟悉RoCEv2、TCP/IP拥塞控制机制者优先)
3.有分布式系统相关开发经验
4.计算机/网络相关专业硕士在读,能保证每日8小时全职工作
加分项
1.参与过HPC或超算中心建设项目
2.发表过网络与分布式系统相关论文
3.熟悉RoCE/NCCL/UCX通信库底层实现

我们能提供
1.直面大规模大模型异构训练集群的实战场景
2.与顶尖AI基础设施团队共事的机会
3.参与行业前沿技术方案落地
4.有竞争力的实习津贴与转正机会
备注:
1.简历请重点突出分布式系统/网络相关项目经

2.需在简历中明确标注每周可工作天数及持续时

3.优先6个月及以上实习期同学
全部评论
接好运
点赞 回复 分享
发布于 2025-03-24 23:44 上海
接offer
点赞 回复 分享
发布于 2025-03-13 21:57 上海

相关推荐

03-27 16:40
已编辑
门头沟学院 C++
26学院本太难了,很多公司机筛就给我刷了。机会都难拿到如果是简历存在问题也欢迎拷打————————————————————分割线——————————————————————2026.3.4更新:发完贴之后,时不时投递又收到了不少的笔试/面试邀请。主要是之前投递简历出去之后基本上都是沉默状态,年后好转了不少timeline:2026.01.21 文远知行笔试,半年多没刷算法题 ->挂 (后续HR说春招可以重新安排笔试)2026.2.4     小鹏汇天 技术一面,第二周收到结果 ->挂2026.2.12   大众Cariad代招 技术二面 ->Offer2026.2.28   多益网络技术面试,由于风评太差,一直在犹豫要不要接面试 ->推迟-----------分割线-----------2026.3 月前的某一天,临时去电网报名了二批计算机岗位的笔试2026.3.6 从上家公司实习离职,氛围最好的一家公司,leader 说可以帮忙转正,但是流程太长,而且我们部门据说只有一个 hc,更想要研究生,我很有可能是会被签外包公司在这里干活,就离职了。2026.3.9 入职新公司,大众Cariad 以外部公司的身份进组,项目组签了三年,后续三年应该都可以在这里呆,不知道有没有希望原地跳槽。2026.3.10 电网考试居然说我通过资格审查了,短信约我去参加资格审查,请假一天,买了 12 号晚上的机票回成都2026.3.15 参加国家电网计算机类笔试2026.3.17 电网出成绩了,感觉很低。觉得已经🈚️了2026.3.18 收到电网面试通知,通知 3.22-3.25 这个时间去面试,我的岗位只招 1 个人。据说面试只有 2-3 人,不知道能不能成功----------分割线-----------2026.3.21 电网面试结束,感觉回答的还勉勉强强,大概是2个岗位分别招1个人,一共11人面试,实际来了9人2026.3.27 出面试成绩,满分100分,早上10:20左右发现面试成绩46,我震惊了,没截图,后面过了十分钟重新看发现面试成绩给我改成58了。但同样震惊。朋友问我是不是把面试官打了,哈哈
点赞 评论 收藏
分享
评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务