1.讨论表格 Agent;以及我认为什么是 agent 什么是 pipeline。2.写这个论文初衷是什么? 用在业务上吗?3.GRPO、DPO、DAPO 区别是什么?4.DPO 的 loss 你怎么理解的?你们业务上用了 DPO 为什么这样设计?5.讲讲你认你的简历中什么是“感知、规划、执行、反思”?6.讲一讲你模型的混合推理是什么?和 qwen 他们的 instruct、think 模型有什么区别?7.GRPO 计算公式是什么?讲一下8.你给 contribution 给 nips 哪个仓库是什么?9.你还做了哪些开源贡献10.玩游戏吗?LOL 什么段位?你一般 lol 是怎么识别外挂的?,还玩过哪些 fps 游戏吗?11.手撕: 最长递增子序列