阿里国际AI Infra实习凉经

1.实习介绍
2.针对项目提问
3.FlashAttention原理,Online softmax,有没有看过cuda kernel,FlashAttention V1,V2,V3,FlashDecoding原理
4.推理优化的思路(方法)有哪些
5.用没用过vllm/SGLang,原理
6.有没有听说过Dynamic Batching
7.Coding:写一个ruduce,用block,优化版:用warp shuffle,能不能再优化?
8.加载到shared memory和直接从HBM取input比为什么更快
9.有没有听说过shared memory的bank conflict
10.反问:在哪些地方可以继续提升自己
全部评论

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务