字节搜索算法一面凉经分享-实习
被挂了,希望发出来对大家有帮助!
1. 在使用大模型训练时,是否考虑过语料重要度的区别以及相应的训练策略改变?
2. 在使用DPO和GRPO等框架训练过程中遇到了哪些问题?
3. DPO相比PPO解决了什么问题?DPO自己有什么问题?
4. PPO相比于Actor-Critic,策略梯度这些方法有什么区别
5. 使用vibe coding工具的频率如何?对于claude code,相比于trae的优点是什么?
6. 问我有没有看过粗精混这方面的架构,并且说我投的论文是20-21年的东西。
7. 有没有了解过agent任务之间互相编排的机制。
1. 在使用大模型训练时,是否考虑过语料重要度的区别以及相应的训练策略改变?
2. 在使用DPO和GRPO等框架训练过程中遇到了哪些问题?
3. DPO相比PPO解决了什么问题?DPO自己有什么问题?
4. PPO相比于Actor-Critic,策略梯度这些方法有什么区别
5. 使用vibe coding工具的频率如何?对于claude code,相比于trae的优点是什么?
6. 问我有没有看过粗精混这方面的架构,并且说我投的论文是20-21年的东西。
7. 有没有了解过agent任务之间互相编排的机制。
全部评论
相关推荐
04-15 15:34
南京信息工程大学 Java 点赞 评论 收藏
分享