26届秋招 小米 大模型推理框架开发工程师

2026.01.30 一面 48min
1. 介绍实习、解释实习的一些细节
2. 在构建镜像时,有没有一些经验?比如怎么让镜像尺寸不要变得太大? 
3. 一个请求的 KV Cache 占用空间是怎么计算的?
4. LMCache 和 VLLM 是怎样交互的?KV Connector 具体是怎么把 KV Cache 从 GPU 转移到 CPU 内存并取回来的?  
5. 随着上下文长度(context length)越来越长,但显存和算力跟不上,你觉得在模型架构或工程层面有哪些改进方向? 
6. 能讲一下一个推理请求在 VLLM 系统内部的完整生命周期过程吗? 
7. 单机多卡部署时,VLLM 内部是怎么做张量并行(TP)和流水线并行(PP)的?
8. TP 和 PP 在实际使用中是怎么切分权重、计算和通信的?又是怎么合并结果的?  
9. 手撕multi head attention

2026.02.02 二面 52min
1. 介绍实习、解释实习的一些细节
2. 根据实习做的内容扩展、发散
3. 介绍发表的会议论文

二面挂,HR反馈“代码的掌握比较浅”
反问“是不是弄错了,二面没有考察代码”
HR又回了一句“有些问题没有深入思考”😓
#论秋招对个人心气的改变#
全部评论

相关推荐

2025-12-24 13:37
已编辑
浙江农林大学 C++
Eryi_是不是名字...:金牌哥,你这要是考研C9进复试线乱杀啊。可以试试字节腾讯华子,我感觉投华子实习概率很大啊
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务