百度 ai infra 暑期实习一面
给我面没招了,发点面经攒攒人品~
1、项目:
1.加速时的vllm细节
2.项目中遇到的难点
2、八股:
1.kv-cache为什么存在以及解决的问题
2.kv-cache 怎么算
3.cuda 内存结构
4.block 级规约过程(求一组线程的最大值)
5.decode阶段输出token的选择方案?
6.更倾向框架层还是算子层
7.pd分离的大致流程
8.推理加速的手段有哪些:很多
9.讲讲moe模型
10.讲讲多种attention头以及特点
11.kv- cache的维度一般是多少,只想起了mla的维度是512,其余的维度说和q的维度是对应的
12.SM 的具体结构
3、代码:
口述代码原理(手机面试):柱子接雨水
1、项目:
1.加速时的vllm细节
2.项目中遇到的难点
2、八股:
1.kv-cache为什么存在以及解决的问题
2.kv-cache 怎么算
3.cuda 内存结构
4.block 级规约过程(求一组线程的最大值)
5.decode阶段输出token的选择方案?
6.更倾向框架层还是算子层
7.pd分离的大致流程
8.推理加速的手段有哪些:很多
9.讲讲moe模型
10.讲讲多种attention头以及特点
11.kv- cache的维度一般是多少,只想起了mla的维度是512,其余的维度说和q的维度是对应的
12.SM 的具体结构
3、代码:
口述代码原理(手机面试):柱子接雨水
全部评论
相关推荐
查看9道真题和解析