阿里巴巴核心技术部门-招人ing

#春招##阿里巴巴#
我们是阿里控股集团智能引擎部门招聘团队，招聘岗位：

    24届应届生补招：大模型研发工程师（训练方向）、C++开发工程师（机器学习系统），地点北京（毕业时间在2023年11月~2024年10月）

    25届实习生招聘：大模型研发工程师、C++开发工程师（机器学习系统）、Java开发工程师，地点北京/杭州（毕业时间在2024年11月~2025年10月）

附统一JD：研发工程师（机器学习系统/大模型方向），地点北京/杭州

    我们关注于现代机器学习系统当中的各个组件，从软硬件协同设计、核心深度学习与机器学习引擎的优化、大规模分布式训练系统的建设，并建设如特征存储、推理引擎、算法编排和服务等一系列标准组建。我们支持各种深度学习网络的灵活拆分，支持超TB的模型，驱动异构计算和实时计算的发展，不断追求效率的极致。我们通过推动多项领先的算法技术，是阿里巴巴技术驱动商业变革的核心引擎，快来加入我们吧！

职位职责包括但不限于：

1、设计和实现机器学习系统所需要的大规模分布式计算系统；

2、机器学习全生命周期（训练、推理、MLOps、CI/CD、AB testing）组件的开发与优化；

3、在机器学习系统的前沿领域（如分布式训练、软硬协同设计等）参与应用驱动的研究。

任职要求：

1、精通C/C++、Java、Python等至少一门编程语言，了解至少一种主流机器学习建模框架；

2、热衷于数据结构和算法、在ACM大赛成绩优异者优先；

3、有实际成果并发表在国际顶级会议、期刊者优先；

4、熟悉异构计算和高性能计算，有GPU、端侧等软硬件优化经验者优先；

5、对于机器学习和数学有较强的理解能力，有机器学习领域经验（计算机视觉、语音、NLP、推荐系统）优先；

6、熟悉常用机器学习算法，有linux下开发经验的，大规模数据处理经验优先。

全部评论

推荐最新楼层

rkbg

楼主

阿里巴巴_研发工程师

感兴趣的同学直接私发我简历~

点赞回复分享

发布于 2024-05-11 20:18 浙江

03-03 01:25

门头沟学院机器学习

快手校招AI infra面经分享

一面面经分享，差不多面了五十多分钟1. 项目深挖，问得非常详细2. 如何通过Profiling定位瓶颈？（带宽利用率、流水线空泡、指令耗时）3. Matmul分块策略4. 手撕：n! 中尾随 0 的个数5. 手撕：买卖股票的最大利润

查看5道真题和解析

点赞评论收藏

03-04 02:45

门头沟学院 Java

虾皮ai infra研发实习一面

继续来分享下之前的面经~欢迎信息共享1 k8s pod/deployment从提交到拉起的全流程2 k8scontroller informer相关3 k8s流量相关，发布了新版本的pod，怎么逐渐拉起新的，流量怎么切过去的4 Ray组件，调度器结构，单节点上oom了怎么处理八股相关 15min1 B+树实现 原理2 索引失效3索引覆盖，回表4 用户态内核态相关

查看8道真题和解析

点赞评论收藏

03-04 08:45

华东理工大学 Java

AIinfra 百度实习一面

发些面经攒攒人品～～～1* FusedAttention优化怎么做的？2* 介绍一下FlashAttention3* FlashAttention数学推理公式4* RMSNorm为什么相比LayerNorm有提升？5* 现场想一个更灵活有效的显存分配方式cudaAllocator6* 整个Llama中有几个FC全连接层？7* Llama2的推理流程？每一层都有什么算子论文拷打C++：1* C++11的特性2* 智能指针3* unique_ptr 如何保证唯一性4* shared_ptr 何时析构5* 类的成员函数可以当模板吗6* 左值右值CUDA：1* CUDA有哪几种编程手段2* Tensor core 和 CUDA core的区别编程：1* 【LeetCode - 128】最长连续序列2* 【LeetCode - 340】至多包含 K 个不同字符的最长子串

查看17道真题和解析

点赞评论收藏

03-03 08:30

门头沟学院机器学习

AI infra小厂实习面经

给我面没招了，感觉自己好菜、面试很难，还是要多多练习，感觉自己说不明白业务逻辑1.说一下vllm里schedule的过程；2.说一下vllm请求被抢占后续会怎么样；3.说一下投机采样推理时草稿模型和主模型交互流程，vllm和sglang中的实现有什么区别；4.说一下gptq量化、smooth quant原理；5.介绍一下DeepSeek V3 eplb推理；6.mla在prefill和decode时的计算复杂度区别，听说过mla矩阵吸收优化吗；7.dsv3.2有什么创新点；8.sglang里多模态如果开了tp，vit的image embedding在多个进程里是怎么高效复用的

查看8道真题和解析

点赞评论收藏

03-03 10:35

门头沟学院机器学习

AI infra 人才库面经总结

ai infra八股：1- 给定训练所需的Tokens，怎么估计模型训练所需的完整时间？2- Prefill和Decode阶段各有什么优化技术？3- 什么是Two-batch overlap，什么场景Two-batch overlap是负优化？4- megatron-lm中通信优化怎么做？5- 多机PD分离会有KV cache transfer开销，为什么还要做PD分离？6- muon和AdamW的pretrain和posttrain为什么不能混用？7- 如何看待跨SM的PD分离和AF分离？8- cuda的global memory和shared memory访存分别需要注意什么？9- deepseek-V3的优化点10- deepseek-DSA和NSA，MoBA的区别11- nccl中的通信源语有哪些？all-reduce参数更新一次参数需要几次通信？12- 在小数据量场景使用NVSHMEM，每个GPU直接读取其他GPU的数据，在本地reduce，相比ring all-reduce的好处13- 训练时如何设计超长序列下的并行14- 将Ampere架构的算子适配到Hopper架构的卡上，你会对哪些地方进行升级改造？

在改简历的大卫很认真：1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数再除以单卡算力、并行数、利用率，就是时长。 2. Prefill / Decode 优化 - Prefill：长序列并行、FlashAttention、分块、算子融合、向量化 - Decode：KV cache、连续Batch、PagedAttention、Speculative Decoding 3. Two-batch overlap - 同时跑两个微批次，计算/通信重叠 - 负优化：计算太快、通信太小、显存不够、调度 overhead 盖过收益 4. Megatron-LM 通信优化 TP+PP+DP三维并行；重叠通信计算；分桶AllReduce；激活重计算；减少跨节点通信量。 5. PD分离（PP+DP）为什么要KV transfer 为了流水线+数据并行一起用，提高吞吐；虽然有KV拷贝成本，但整体能堆更大Batch、更高利用率。 6. MuON / AdamW 不能混用优化器状态、动量、更新逻辑完全不兼容；预训练用一个，微调换另一个，状态不匹配，直接训崩/不收敛。 7. 跨SM PD / AF 分离核心：拆任务、提高 occupancy、隐藏延迟； PD：并行度拆分更干净； AF：聚焦注意力/前馈访存与计算重叠；看模型结构、Kernel瓶颈选。 8. CUDA Global / Shared 注意 - Global：对齐、连续访问、合并访存、少随机读、用L2缓存 - Shared：防bank conflict、分块复用、同步_sync、容量控制 9. DeepSeek-V3 优化点高效架构+长序列支持；优化Attention/FFN计算；更好的并行策略；推理侧低延迟高吞吐。 10. DeepSeek-DSA/NSA/MoBA - DSA：领域稀疏注意力 - NSA：神经稀疏注意力 - MoBA：混合专家注意力核心都是稀疏化、省计算、扩容量。 11. NCCL 原语 & AllReduce 次数原语：Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce：2次（ReduceScatter + AllGather）。 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟；直接GPU-GPU读+本地Reduce；小数据下延迟更低、更简单。 13. 超长序列训练并行 TP+PP+CP（上下文并行）+ ZeRO；分块Attention、分块FFN；激活重算+KV复用；控制通信量。 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 - 适配TMA、异步拷贝 - 优化Warp调度、 occupancy - 重写Attention/MatMul，用Hopper专属优化

查看14道真题和解析

点赞评论收藏