AI infra推理方向日常实习面经总结

攒人品攒人品~~
1.实习拷打
2.推理相关知识点:
1.transformer架构(encoder-only、decoder-only、encoder-decoder各自优缺点,模型举例)
2.prefill/decode 结合roofline讲
3.nv基础(grid、block、thread、warp、l0cache/l1cache(shared memory)/l2cache/global memory、sram/hbm、tensor core、tma等)
4.vllm相关(pagedattention、连续批处理、v0/v1架构、chunked prefill、prifix caching等)
5.sglang相关 (radixattention,sglang代码没怎么看,问的不多)
flashattention v1-v3、flashdecoding
6.量化(LLM.int8()、SmoothQuant、AWQ、GPTQ等、量化的好处)
7.投机解码(什么是投机解码、lookahead、n-gram、medusa、eagle)
8.并行(dp/tp/pp/ep各自是什么,在vllm中如何实现)
9.通信(reduce、gather、开销考虑)
10.主流模型架构(llama1-3的演变、qwen3的moe怎么做的、deepseek的mtp)
11.kvcache压缩手段(MHA、MQA、GQA、MLA)
12.pd分离
3.其他知识点
计网、操作系统、python八股 都很基础
4.手撕
leetcode:反转链表、链表重排(lc143)、中序遍历二叉树的递归和非递归实现、最长连续序列(lc128)
triton/cuda:layer norm、大矩阵规约求和、online-softmax
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务