阿里巴巴核心技术部门-招人ing
#春招##阿里巴巴#
我们是阿里控股集团智能引擎部门招聘团队,招聘岗位:
24届应届生补招:大模型研发工程师(训练方向)、C++开发工程师(机器学习系统),地点北京(毕业时间在2023年11月~2024年10月)
25届实习生招聘:大模型研发工程师、C++开发工程师(机器学习系统)、Java开发工程师,地点北京/杭州(毕业时间在2024年11月~2025年10月)
附统一JD:研发工程师(机器学习系统/大模型方向),地点北京/杭州
我们关注于现代机器学习系统当中的各个组件,从软硬件协同设计、核心深度学习与机器学习引擎的优化、大规模分布式训练系统的建设,并建设如特征存储、推理引擎、算法编排和服务等一系列标准组建。我们支持各种深度学习网络的灵活拆分,支持超TB的模型,驱动异构计算和实时计算的发展,不断追求效率的极致。我们通过推动多项领先的算法技术,是阿里巴巴技术驱动商业变革的核心引擎,快来加入我们吧!
职位职责包括但不限于:
1、设计和实现机器学习系统所需要的大规模分布式计算系统;
2、机器学习全生命周期(训练、推理、MLOps、CI/CD、AB testing)组件的开发与优化;
3、在机器学习系统的前沿领域(如分布式训练、软硬协同设计等)参与应用驱动的研究。
任职要求:
1、精通C/C++、Java、Python等至少一门编程语言,了解至少一种主流机器学习建模框架;
2、热衷于数据结构和算法、在ACM大赛成绩优异者优先;
3、有实际成果并发表在国际顶级会议、期刊者优先;
4、熟悉异构计算和高性能计算,有GPU、端侧等软硬件优化经验者优先;
5、对于机器学习和数学有较强的理解能力,有机器学习领域经验(计算机视觉、语音、NLP、推荐系统)优先;
6、熟悉常用机器学习算法,有linux下开发经验的,大规模数据处理经验优先。
我们是阿里控股集团智能引擎部门招聘团队,招聘岗位:
24届应届生补招:大模型研发工程师(训练方向)、C++开发工程师(机器学习系统),地点北京(毕业时间在2023年11月~2024年10月)
25届实习生招聘:大模型研发工程师、C++开发工程师(机器学习系统)、Java开发工程师,地点北京/杭州(毕业时间在2024年11月~2025年10月)
附统一JD:研发工程师(机器学习系统/大模型方向),地点北京/杭州
我们关注于现代机器学习系统当中的各个组件,从软硬件协同设计、核心深度学习与机器学习引擎的优化、大规模分布式训练系统的建设,并建设如特征存储、推理引擎、算法编排和服务等一系列标准组建。我们支持各种深度学习网络的灵活拆分,支持超TB的模型,驱动异构计算和实时计算的发展,不断追求效率的极致。我们通过推动多项领先的算法技术,是阿里巴巴技术驱动商业变革的核心引擎,快来加入我们吧!
职位职责包括但不限于:
1、设计和实现机器学习系统所需要的大规模分布式计算系统;
2、机器学习全生命周期(训练、推理、MLOps、CI/CD、AB testing)组件的开发与优化;
3、在机器学习系统的前沿领域(如分布式训练、软硬协同设计等)参与应用驱动的研究。
任职要求:
1、精通C/C++、Java、Python等至少一门编程语言,了解至少一种主流机器学习建模框架;
2、热衷于数据结构和算法、在ACM大赛成绩优异者优先;
3、有实际成果并发表在国际顶级会议、期刊者优先;
4、熟悉异构计算和高性能计算,有GPU、端侧等软硬件优化经验者优先;
5、对于机器学习和数学有较强的理解能力,有机器学习领域经验(计算机视觉、语音、NLP、推荐系统)优先;
6、熟悉常用机器学习算法,有linux下开发经验的,大规模数据处理经验优先。
全部评论
感兴趣的同学直接私发我简历~
相关推荐
03-03 10:35
门头沟学院 机器学习 在改简历的大卫很认真:1. 训练时间估算
时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率)
总FLOPs ≈ 6 × 参数 × Token数
再除以单卡算力、并行数、利用率,就是时长。
2. Prefill / Decode 优化
- Prefill:长序列并行、FlashAttention、分块、算子融合、向量化
- Decode:KV cache、连续Batch、PagedAttention、Speculative Decoding
3. Two-batch overlap
- 同时跑两个微批次,计算/通信重叠
- 负优化:计算太快、通信太小、显存不够、调度 overhead 盖过收益
4. Megatron-LM 通信优化
TP+PP+DP三维并行;
重叠通信计算;
分桶AllReduce;
激活重计算;
减少跨节点通信量。
5. PD分离(PP+DP)为什么要KV transfer
为了流水线+数据并行一起用,提高吞吐;
虽然有KV拷贝成本,但整体能堆更大Batch、更高利用率。
6. MuON / AdamW 不能混用
优化器状态、动量、更新逻辑完全不兼容;
预训练用一个,微调换另一个,状态不匹配,直接训崩/不收敛。
7. 跨SM PD / AF 分离
核心:拆任务、提高 occupancy、隐藏延迟;
PD:并行度拆分更干净;
AF:聚焦注意力/前馈访存与计算重叠;
看模型结构、Kernel瓶颈选。
8. CUDA Global / Shared 注意
- Global:对齐、连续访问、合并访存、少随机读、用L2缓存
- Shared:防bank conflict、分块复用、同步_sync、容量控制
9. DeepSeek-V3 优化点
高效架构+长序列支持;
优化Attention/FFN计算;
更好的并行策略;
推理侧低延迟高吞吐。
10. DeepSeek-DSA/NSA/MoBA
- DSA:领域稀疏注意力
- NSA:神经稀疏注意力
- MoBA:混合专家注意力
核心都是稀疏化、省计算、扩容量。
11. NCCL 原语 & AllReduce 次数
原语:Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce
Ring AllReduce:2次(ReduceScatter + AllGather)。
12. 小数据量 NVSHMEM vs Ring AllReduce
少了Ring多跳延迟;
直接GPU-GPU读+本地Reduce;
小数据下延迟更低、更简单。
13. 超长序列训练并行
TP+PP+CP(上下文并行)+ ZeRO;
分块Attention、分块FFN;
激活重算+KV复用;
控制通信量。
14. Ampere → Hopper 算子升级
- 用TF32、FP8、新指令
- 适配TMA、异步拷贝
- 优化Warp调度、 occupancy
- 重写Attention/MatMul,用Hopper专属优化
查看14道真题和解析 点赞 评论 收藏
分享