vivo大模型研究员 一面

📍面试公司:vivo

💻面试岗位:大模型研究员

❓面试问题:

1、自我介绍
2、项目介绍
3、项目交流
4、讲一下为啥用DPO
5、数据集是怎么构建的?
6、怎么去的分析badcase
7、会去写训练代码吗?
8、chatglm结构
9、代码题:和最大子数组
10、反问

🙌面试感想:Boss投的,应该是日常实习。岗位叫啥研究员,感觉不太像搞啥研究,部门好像是做图片视频理解的。两个面试官,轮着交流。听说就两面,后面还有一面hr面,看看有无后续。

#面试问题记录#  #面经#  #大模型算法工程师#  #算法工程师#
全部评论
楼主的项目涉及到ChatGLM吗?
点赞 回复 分享
发布于 05-30 08:21 江苏
xd啥背景呀,好多面,羡慕
点赞 回复 分享
发布于 05-26 17:07 辽宁
官网能投暑期
点赞 回复 分享
发布于 05-20 20:42 北京
今天面的吗?
点赞 回复 分享
发布于 05-18 17:58 上海

相关推荐

GRPO(Group Relative Policy Optimization)虽然最初是为强化学习中的reasoning任务(如需要多步决策、逻辑推理的任务)设计的,但其核心思想——通过组内策略的相对比较来优化策略——也可以应用于非reasoning任务(如简单的控制任务、分类任务甚至生成任务)。以下是具体的分析和建议:首先我们看下GRPO的关键创新点是:✅组内相对比较(Group Relative):将策略分成若干组(group),在组内比较不同策略的表现,而非绝对优化单个策略。✅相对策略梯度:通过组内策略的相对优势(relative advantage)计算梯度,降低方差并提升稳定性。这种思想本质上是一种基于比较的优化方法,与任务是否需要“reasoning”无直接关系,因此可以迁移到非reasoning任务中。🤔那么有哪些非Reasoning任务的适用场景呢?(1)简单控制任务(如机器人控制)问题:传统PPO可能因稀疏奖励或高方差导致训练不稳定。GRPO改进:将不同控制策略分组(例如不同参数化的控制器),在组内比较它们的表现,选择相对更优的策略更新。示例:机械臂抓取任务中,组内可以包含不同的抓取轨迹策略,通过相对优势选择更稳定的策略。(2)生成任务(如文本/图像生成)问题:生成模型的策略优化通常依赖对抗训练(GAN)或最大似然,容易陷入模式崩溃。GRPO改进:将生成器分成多个组(例如不同初始化或架构的子生成器),通过组内生成样本的质量相对比较优化策略。示例:在文本生成中,组内比较不同生成策略的流畅性、多样性等指标。(3)分类/回归任务问题:传统监督学习直接优化损失函数,可能对噪声敏感。GRPO改进:将模型的不同参数化版本(如不同dropout、超参数)分组,通过组内相对性能(如验证集准确率)更新模型。示例:图像分类中,组内比较不同数据增强策略的效果。✴️总结GRPO可以用于非reasoning任务,但需重新设计组的划分方式和相对比较的指标。其核心优势在于通过组内相对优化降低方差,适合奖励稀疏或需要多策略并行的场景。如果任务本身已有高效优化方法(如标准的监督学习),GRPO可能不会带来显著提升。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
3
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务