新浪 一面

📍面试公司:新浪
🕐面试时间:9.29
💻面试岗位:大模型推理引擎工程师 一面
❓面试问题:
1.自我介绍
2.项目2-指标提升是指吞吐量还是单个请求的token/s
3.项目2-提升来自哪里(答得不会,给后面挖坑了)
4.flash attention 的原理?
5.项目2-用flash attention 和不用 指标差距多少(指标我是大概测得,后面要重做一下)
6.项目2-是在多长序列做的测试(用了flashattention后,应该可以使用更长的序列了)
7.项目2-为什么只写了decoding的提升,没有写prefill的提升(那当然是因为我没有测啊)
8.项目2-什么卡,理论算力多少(不知道,已经开始冒汗了)
9.项目2-nsys和ncu,你不知道理论算力,你怎么知道如何优化
10.项目2-你是怎么用的ncu,看了哪些指标(只答了几个特别基础的,当时脑子跟傻了一样,啥都想不起来)
11.项目2-你利用ncu,对你的算子做了什么优化(优化都是比着网上抄的,我哪里知道怎么优化啊)
12.项目2-量化是调的库吗,还是自己写的?
13.项目2-pageattention?是单个token还是几个token一页?
14.项目2-prefix cache?
15.项目2-持续批处理?
16.项目2-投机解码?大小模型是什么?
17.vllm用过吗(单卡用过,多卡只看过理论)
18.那你讲一下多卡的TP吧(我都说没用过多卡了)
19.什么时候按行来切,什么时候按列来切?(我给答反了,说成ffn按列和QKV按行了)
20.按行和按列切,通信都在哪里(别问了别问了,我再去好好学一下)

反问:
1.我应该学什么:transformer结构要熟悉,并行要很熟悉,DP TP PP 必须很熟悉,然后多看看 ep sp一些新的,学会dense模型后,去做moe,学习跨卡的通信,比如通信和计算 overlap等。一定掌握好基础

🙌面试感想:我太菜了,好好去学基础,准备春招了
#发面经攒人品#
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务