百度 AI infra面经 好难
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.Go 的 tag 映射如何实现的
2.反射
3.Slice 和 array 扩容机制
4.Map 实现机制,遍历无序,如何实现一个有序的 map
5.介绍 gmp 能说多少说多少
6.Tcp udp http https
7.输入一个网址的访问流程
8.Send write mmap sendfile 内核缓冲区和用户缓冲区磁盘读缓冲区?
9.进程协程线程
10.Informer 的原理
11.Docker 实现原理
12.容器如何做到 pid 隔离的如何关闭
1.Go 的 tag 映射如何实现的
2.反射
3.Slice 和 array 扩容机制
4.Map 实现机制,遍历无序,如何实现一个有序的 map
5.介绍 gmp 能说多少说多少
6.Tcp udp http https
7.输入一个网址的访问流程
8.Send write mmap sendfile 内核缓冲区和用户缓冲区磁盘读缓冲区?
9.进程协程线程
10.Informer 的原理
11.Docker 实现原理
12.容器如何做到 pid 隔离的如何关闭
全部评论
为什么 ai infra 问的像后端啊
超级像后端的面经
感觉和AI没啥关系啊
相关推荐
03-03 10:35
门头沟学院 机器学习 在改简历的大卫很认真:1. 训练时间估算
时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率)
总FLOPs ≈ 6 × 参数 × Token数
再除以单卡算力、并行数、利用率,就是时长。
2. Prefill / Decode 优化
- Prefill:长序列并行、FlashAttention、分块、算子融合、向量化
- Decode:KV cache、连续Batch、PagedAttention、Speculative Decoding
3. Two-batch overlap
- 同时跑两个微批次,计算/通信重叠
- 负优化:计算太快、通信太小、显存不够、调度 overhead 盖过收益
4. Megatron-LM 通信优化
TP+PP+DP三维并行;
重叠通信计算;
分桶AllReduce;
激活重计算;
减少跨节点通信量。
5. PD分离(PP+DP)为什么要KV transfer
为了流水线+数据并行一起用,提高吞吐;
虽然有KV拷贝成本,但整体能堆更大Batch、更高利用率。
6. MuON / AdamW 不能混用
优化器状态、动量、更新逻辑完全不兼容;
预训练用一个,微调换另一个,状态不匹配,直接训崩/不收敛。
7. 跨SM PD / AF 分离
核心:拆任务、提高 occupancy、隐藏延迟;
PD:并行度拆分更干净;
AF:聚焦注意力/前馈访存与计算重叠;
看模型结构、Kernel瓶颈选。
8. CUDA Global / Shared 注意
- Global:对齐、连续访问、合并访存、少随机读、用L2缓存
- Shared:防bank conflict、分块复用、同步_sync、容量控制
9. DeepSeek-V3 优化点
高效架构+长序列支持;
优化Attention/FFN计算;
更好的并行策略;
推理侧低延迟高吞吐。
10. DeepSeek-DSA/NSA/MoBA
- DSA:领域稀疏注意力
- NSA:神经稀疏注意力
- MoBA:混合专家注意力
核心都是稀疏化、省计算、扩容量。
11. NCCL 原语 & AllReduce 次数
原语:Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce
Ring AllReduce:2次(ReduceScatter + AllGather)。
12. 小数据量 NVSHMEM vs Ring AllReduce
少了Ring多跳延迟;
直接GPU-GPU读+本地Reduce;
小数据下延迟更低、更简单。
13. 超长序列训练并行
TP+PP+CP(上下文并行)+ ZeRO;
分块Attention、分块FFN;
激活重算+KV复用;
控制通信量。
14. Ampere → Hopper 算子升级
- 用TF32、FP8、新指令
- 适配TMA、异步拷贝
- 优化Warp调度、 occupancy
- 重写Attention/MatMul,用Hopper专属优化
查看14道真题和解析 点赞 评论 收藏
分享
