字节筋斗云计划面经
1. 介绍项目;
2. 介绍 GRPO
3.GRPO 和其他强化学习的区别
4. 为什么 GRPO 不能用在下棋、魔兽这些游戏场景上,维度在 LLM 领域很受欢迎。
5. grounding 任务如何提升视觉模态和语言模态的交互来提升性能。
6.为什么无标注的数据飞轮能够实现模型的自进化?
7.代码:把n个骰子扔在地上,所有骰子朝上一面的点数之和为s。求s的所有可能的值以及出现的概率。(DP)
8.反问:工作内容和方向;计算资源。
2. 介绍 GRPO
3.GRPO 和其他强化学习的区别
4. 为什么 GRPO 不能用在下棋、魔兽这些游戏场景上,维度在 LLM 领域很受欢迎。
5. grounding 任务如何提升视觉模态和语言模态的交互来提升性能。
6.为什么无标注的数据飞轮能够实现模型的自进化?
7.代码:把n个骰子扔在地上,所有骰子朝上一面的点数之和为s。求s的所有可能的值以及出现的概率。(DP)
8.反问:工作内容和方向;计算资源。
全部评论
相关推荐
查看13道真题和解析