1.八股:多头注意力的作用是什么?头数越多越好吗?2.八股:多头注意力机制的计算复杂度是多少?3.八股:推理时如何加速 LLM?你知道哪些方法(如 vLLM、量化、KV cache)?4.项目:你提到用 GRPO 而非 DPO,请对比两者损失函数形式,并解释 GRPO 在训练稳定性上的优势。5.项目:在构建偏好数据时,你采用了聚类方法筛选高质量样本,为什么没选 KMeans?考虑了哪些语义或多样性因素?6.项目:在构造偏好数据时,你是用同一个 prompt 采样多个 response 吗?怎么保证多样性?7.项目:你的奖励函数是如何设计的?logprobs 在一致性奖励中起什么作用?如何量化“语义一致性”?8.项目:GRPO 训练时 KL 散度控制得怎么样?如果 KL 太大,你会怎么调?9.项目:LLM重复生成内容的问题如何缓解?10.代码题:LeetCode 239. 滑动窗口最大值