实习面经 腾讯大模型算法二面 攒人品
给我面没招了,发点面经攒攒人品~
1.GRPO 和 PPO 在 RLHF 中的核心区别是什么?
2.KL 散度在 RLHF 中的作用是什么?它的公式如何直观理解?
3.vLLM 的核心优势是什么?它是如何通过 PagedAttention 提升显存利用率的?
4.Qwen3 和DeepSeek-R1 在架构上有哪些关键差异?
5.微调数据集的结构是怎样的?有多少条?数据清洗和有效性验证是怎么做的?
6.奖励函数是如何设计的?
7.怎么避免模型靠堆字数刷奖励?
8. KV Cache 在长上下文推理中可能被污染,你们有做缓存隔离或清理机制吗?
9.本地部署时,如何平衡vLLM 的上下文长度和显存占用?是否做过量化或动态批处理?
10.手撕:乘积最大子数组(LeetCode 152)
1.GRPO 和 PPO 在 RLHF 中的核心区别是什么?
2.KL 散度在 RLHF 中的作用是什么?它的公式如何直观理解?
3.vLLM 的核心优势是什么?它是如何通过 PagedAttention 提升显存利用率的?
4.Qwen3 和DeepSeek-R1 在架构上有哪些关键差异?
5.微调数据集的结构是怎样的?有多少条?数据清洗和有效性验证是怎么做的?
6.奖励函数是如何设计的?
7.怎么避免模型靠堆字数刷奖励?
8. KV Cache 在长上下文推理中可能被污染,你们有做缓存隔离或清理机制吗?
9.本地部署时,如何平衡vLLM 的上下文长度和显存占用?是否做过量化或动态批处理?
10.手撕:乘积最大子数组(LeetCode 152)
全部评论
相关推荐
03-07 02:28
南京理工大学 Java 点赞 评论 收藏
分享
查看11道真题和解析 点赞 评论 收藏
分享