给我面没招了,发点面经攒攒人品~1.讲一下实习工作主要解决的是什么问题2.训练数据怎么来的3.最终几个评测集怎么用4.训练用的什么卡5.用了多少张卡6.训练数据集规模7.训练了多少个 Epoch8.训练了多长时间9.讲一下实习期间做的工作10.为什么在实习结束后离职11.为什么在做完一个项目后离职12.算法题和开放题:计算 KV Cache 需要的显存:计算 KV Cache 显存需要哪些前置数据KV Cache 显存怎么计算3B Dense 模型和 32B-a3B MoE 模型,哪个推理延迟更低、推理速度更快:MoE 模型第一次推理激活专家 1、3、5,第二次激活专家 2、4、6,专家切换的成本主要是什么:大模型服务 API 定价问题:不同服务方案下,1K Token、32K 上下文、128K 上下文的输入输出定价如何设计算法题:会议室预定问题判断某个时刻点是否可以预定查询最近可以预定的时间