整体的沟通不是很顺畅,面试官一直在纠结项目背景,我说是技术预研,他一直问有没有业务背景自驾的强化学习和llm的不太一样他们是传统的RL,也不是多模态问了一些项目,面试官好像不太懂问了我几个问题GRPO的优化目标?KL散度的作用,为什么要KL散度?为什么有些论文移除了KL散度?这样会不会灾难性遗忘?GRPO比PPO的优势,我说移除了reward model,以及去掉了value model。但是面试官不是很满意,说这不是GRPO主要的改进。工作比较flexible考了一个leetcode.162(把这题理解为爬坡,当num[mid] <num[mid+1] 说明是往右的一个上坡,left=...