关注
超级像后端的面经
查看原帖
点赞 评论
相关推荐
03-03 10:35
门头沟学院 机器学习 在改简历的大卫很认真:1. 训练时间估算
时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率)
总FLOPs ≈ 6 × 参数 × Token数
再除以单卡算力、并行数、利用率,就是时长。
2. Prefill / Decode 优化
- Prefill:长序列并行、FlashAttention、分块、算子融合、向量化
- Decode:KV cache、连续Batch、PagedAttention、Speculative Decoding
3. Two-batch overlap
- 同时跑两个微批次,计算/通信重叠
- 负优化:计算太快、通信太小、显存不够、调度 overhead 盖过收益
4. Megatron-LM 通信优化
TP+PP+DP三维并行;
重叠通信计算;
分桶AllReduce;
激活重计算;
减少跨节点通信量。
5. PD分离(PP+DP)为什么要KV transfer
为了流水线+数据并行一起用,提高吞吐;
虽然有KV拷贝成本,但整体能堆更大Batch、更高利用率。
6. MuON / AdamW 不能混用
优化器状态、动量、更新逻辑完全不兼容;
预训练用一个,微调换另一个,状态不匹配,直接训崩/不收敛。
7. 跨SM PD / AF 分离
核心:拆任务、提高 occupancy、隐藏延迟;
PD:并行度拆分更干净;
AF:聚焦注意力/前馈访存与计算重叠;
看模型结构、Kernel瓶颈选。
8. CUDA Global / Shared 注意
- Global:对齐、连续访问、合并访存、少随机读、用L2缓存
- Shared:防bank conflict、分块复用、同步_sync、容量控制
9. DeepSeek-V3 优化点
高效架构+长序列支持;
优化Attention/FFN计算;
更好的并行策略;
推理侧低延迟高吞吐。
10. DeepSeek-DSA/NSA/MoBA
- DSA:领域稀疏注意力
- NSA:神经稀疏注意力
- MoBA:混合专家注意力
核心都是稀疏化、省计算、扩容量。
11. NCCL 原语 & AllReduce 次数
原语:Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce
Ring AllReduce:2次(ReduceScatter + AllGather)。
12. 小数据量 NVSHMEM vs Ring AllReduce
少了Ring多跳延迟;
直接GPU-GPU读+本地Reduce;
小数据下延迟更低、更简单。
13. 超长序列训练并行
TP+PP+CP(上下文并行)+ ZeRO;
分块Attention、分块FFN;
激活重算+KV复用;
控制通信量。
14. Ampere → Hopper 算子升级
- 用TF32、FP8、新指令
- 适配TMA、异步拷贝
- 优化Warp调度、 occupancy
- 重写Attention/MatMul,用Hopper专属优化
查看14道真题和解析 点赞 评论 收藏
分享
牛客热帖
更多
- 1... 都在找Agent开发,我整理了80道相关的Agent开发面试题。2.1W
- 2... 被笔试耽误了一天day16(为什么携程第三题始终是0呢5453
- 3... 27后端暑期实习-字节-中国广告与交易(已OC3830
- 4... 双非后端10天速通字节暑期2144
- 5... 美团暑期前端一面面经2139
- 6... 京东后端面经1974
- 7... #拼多多集团-PDD笔试# PDD 3.29 笔试 A了 3道,第四题不太会,有友友A出来了吗,感觉题目比较复杂。1910
- 8... 3.29 pdd笔试1732
- 9... 3.29携程笔试1708
- 10... #美团笔试#不知道为什么算法题第一题只能通过15%的测试用例. 另外, 大模型的基础知识太差了, 很多知识点都不知道1633
正在热议
更多
# 大厂实习和小厂实习最大的区别是什么? #
3799次浏览 24人参与
# 参加完秋招的机械人,还参加春招吗? #
120103次浏览 764人参与
# 招商银行数字金融训练营 #
40940次浏览 401人参与
# 牛友の3月总结 #
3527次浏览 33人参与
# 拼多多工作体验 #
52830次浏览 344人参与
# 面试被问到不会的问题,你怎么应对? #
1022次浏览 12人参与
# 开放七大实习专项,百度暑期实习值得冲吗 #
19433次浏览 312人参与
# 这些公司卡简历很严格 #
95368次浏览 418人参与
# 研究所VS国企,该如何选 #
259193次浏览 2013人参与
# 通信硬件知识分享 #
48192次浏览 538人参与
# 实习最想跑路的瞬间 #
131056次浏览 740人参与
# 找AI工作可以去哪些公司? #
18776次浏览 868人参与
# 从事AI岗需要掌握哪些技术栈? #
16092次浏览 973人参与
# 你做过最难的笔试是哪家公司 #
49672次浏览 875人参与
# 机械人怎么评价今年的华为 #
231827次浏览 1538人参与
# 材料人的华为红黑体验 #
41617次浏览 200人参与
# 金三银四,你的春招进行到哪个阶段了? #
25127次浏览 300人参与
# 说说你知道的学历厂 #
391086次浏览 1379人参与
# AI面会问哪些问题? #
38095次浏览 1194人参与
# 想给25届机械人的秋招建议 #
47829次浏览 251人参与
# 如何排解工作中的焦虑 #
292825次浏览 2606人参与
# 机械人避雷的岗位/公司 #
62951次浏览 395人参与
