被挂了,希望发出来对大家有帮助!1. 在使用大模型训练时,是否考虑过语料重要度的区别以及相应的训练策略改变?2. 在使用DPO和GRPO等框架训练过程中遇到了哪些问题?3. DPO相比PPO解决了什么问题?DPO自己有什么问题?4. PPO相比于Actor-Critic,策略梯度这些方法有什么区别5. 使用vibe coding工具的频率如何?对于claude code,相比于trae的优点是什么?6. 问我有没有看过粗精混这方面的架构,并且说我投的论文是20-21年的东西。7. 有没有了解过agent任务之间互相编排的机制。