百度 文心一言ai infra-实习面经
给我面没招了,发点面经攒攒人品~
1.对vllm和cuda算子哪个更感兴趣
2.为什么要有KVcache,讲一下continues batching
3.Transformer自回归生成流程,从一个文本输入开始,模型是怎么一步一步完成自回归生成的?
4.vllm整体架构,介绍核心部件
5.tp并行:基本思想,attention和gemm怎么切
6.pd分离:架构变化,KVcache变化,数据传输,给定一个常规模型,7.计算生成一个 token 占用的 KV Cache 空间公式
8.算子优化:Memory-bound 优化思路,element-wise优化思路
9.Prefix Caching,block管理,Chunked Prefill
10.gpu/cuda基础:gpu内存结构,sm基本组成,L1、L2 cache权限,reduce优化思路,wrap数据交换
11.C++/python八股:C++ 多态、虚函数;Python 深拷贝和浅拷贝、协程。
12.手撕 接雨水
1.对vllm和cuda算子哪个更感兴趣
2.为什么要有KVcache,讲一下continues batching
3.Transformer自回归生成流程,从一个文本输入开始,模型是怎么一步一步完成自回归生成的?
4.vllm整体架构,介绍核心部件
5.tp并行:基本思想,attention和gemm怎么切
6.pd分离:架构变化,KVcache变化,数据传输,给定一个常规模型,7.计算生成一个 token 占用的 KV Cache 空间公式
8.算子优化:Memory-bound 优化思路,element-wise优化思路
9.Prefix Caching,block管理,Chunked Prefill
10.gpu/cuda基础:gpu内存结构,sm基本组成,L1、L2 cache权限,reduce优化思路,wrap数据交换
11.C++/python八股:C++ 多态、虚函数;Python 深拷贝和浅拷贝、协程。
12.手撕 接雨水
全部评论
相关推荐
查看9道真题和解析