26校招滴滴大模型算法二面
1.八股:多头注意力的作用是什么?头数越多越好吗?
2.八股:多头注意力机制的计算复杂度是多少?
3.八股:推理时如何加速 LLM?你知道哪些方法(如 vLLM、量化、KV cache)?
4.项目:你提到用 GRPO 而非 DPO,请对比两者损失函数形式,并解释 GRPO 在训练稳定性上的优势。
5.项目:在构建偏好数据时,你采用了聚类方法筛选高质量样本,为什么没选 KMeans?考虑了哪些语义或多样性因素?
6.项目:在构造偏好数据时,你是用同一个 prompt 采样多个 response 吗?怎么保证多样性?
7.项目:你的奖励函数是如何设计的?logprobs 在一致性奖励中起什么作用?如何量化“语义一致性”?
8.项目:GRPO 训练时 KL 散度控制得怎么样?如果 KL 太大,你会怎么调?
9.项目:LLM重复生成内容的问题如何缓解?
10.代码题:LeetCode 239. 滑动窗口最大值
2.八股:多头注意力机制的计算复杂度是多少?
3.八股:推理时如何加速 LLM?你知道哪些方法(如 vLLM、量化、KV cache)?
4.项目:你提到用 GRPO 而非 DPO,请对比两者损失函数形式,并解释 GRPO 在训练稳定性上的优势。
5.项目:在构建偏好数据时,你采用了聚类方法筛选高质量样本,为什么没选 KMeans?考虑了哪些语义或多样性因素?
6.项目:在构造偏好数据时,你是用同一个 prompt 采样多个 response 吗?怎么保证多样性?
7.项目:你的奖励函数是如何设计的?logprobs 在一致性奖励中起什么作用?如何量化“语义一致性”?
8.项目:GRPO 训练时 KL 散度控制得怎么样?如果 KL 太大,你会怎么调?
9.项目:LLM重复生成内容的问题如何缓解?
10.代码题:LeetCode 239. 滑动窗口最大值
全部评论
相关推荐
点赞 评论 收藏
分享
查看10道真题和解析