[实习面经] minimax 大模型算法

问项目

模型参数量每个部分有多少

你了解那些评估手段

如何评估多模态模型的输出质量

数据集如何提高质量,如何利用 gpt 辅助提升数据集质量

有哪些方法可以提升预训练模型的质量

有哪些 decode 采样方法

笔试:beam search,最大乘积和
全部评论
多模态输出如何评估
点赞 回复 分享
发布于 07-14 16:30 上海
日常实习吗佬佬
点赞 回复 分享
发布于 02-23 21:01 浙江

相关推荐

GRPO(Group Relative Policy Optimization)虽然最初是为强化学习中的reasoning任务(如需要多步决策、逻辑推理的任务)设计的,但其核心思想——通过组内策略的相对比较来优化策略——也可以应用于非reasoning任务(如简单的控制任务、分类任务甚至生成任务)。以下是具体的分析和建议:首先我们看下GRPO的关键创新点是:✅组内相对比较(Group Relative):将策略分成若干组(group),在组内比较不同策略的表现,而非绝对优化单个策略。✅相对策略梯度:通过组内策略的相对优势(relative advantage)计算梯度,降低方差并提升稳定性。这种思想本质上是一种基于比较的优化方法,与任务是否需要“reasoning”无直接关系,因此可以迁移到非reasoning任务中。🤔那么有哪些非Reasoning任务的适用场景呢?(1)简单控制任务(如机器人控制)问题:传统PPO可能因稀疏奖励或高方差导致训练不稳定。GRPO改进:将不同控制策略分组(例如不同参数化的控制器),在组内比较它们的表现,选择相对更优的策略更新。示例:机械臂抓取任务中,组内可以包含不同的抓取轨迹策略,通过相对优势选择更稳定的策略。(2)生成任务(如文本/图像生成)问题:生成模型的策略优化通常依赖对抗训练(GAN)或最大似然,容易陷入模式崩溃。GRPO改进:将生成器分成多个组(例如不同初始化或架构的子生成器),通过组内生成样本的质量相对比较优化策略。示例:在文本生成中,组内比较不同生成策略的流畅性、多样性等指标。(3)分类/回归任务问题:传统监督学习直接优化损失函数,可能对噪声敏感。GRPO改进:将模型的不同参数化版本(如不同dropout、超参数)分组,通过组内相对性能(如验证集准确率)更新模型。示例:图像分类中,组内比较不同数据增强策略的效果。✴️总结GRPO可以用于非reasoning任务,但需重新设计组的划分方式和相对比较的指标。其核心优势在于通过组内相对优化降低方差,适合奖励稀疏或需要多策略并行的场景。如果任务本身已有高效优化方法(如标准的监督学习),GRPO可能不会带来显著提升。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
07-21 17:12
已编辑
中山大学 全栈开发
积功德职位描述:1. 负责机器学习、深度学习等算法在得物业务场景的产品化工作2. 包括但不限于如下方向:目标检测,图像分割,图像分类,NLP,多模态,大模型等职位要求:1. 熟悉Linux环境开发,熟练掌握 Python 语言,有较强的编码能力2. 熟练使用一种深度学习框架如Pytorch、TensorFlow等,熟悉OpenCV、NumPy、Pandas等常用库3. 对云原生有一定了解,有容器化使用经验者优先4. 有GPU编程经验、熟悉算法模型部署、 TensorRT 优化工具者优先5. 图像处理、模式识别、计算机视觉、计算机图形学、机器学习等计算机相关专业在读研究生优先一面(2025.7.10)30minHR发给我的邮件是上午 11 点,我 11 点进会议等了半个多小时没人退出去了,12 点多的时候,HR微信联系我说怎么没进飞书会议,然后我赶紧爬起来进会议。。。搞忘了,日本和国内有一个小时时差,麻了。。。1. 面试官进来直接说你的简历我已经看过了,自我介绍一下吧2. 几乎是纯聊天。。。面试官说我的经历非常匹配(暗示)3. 大模型有没有推理优化经验?无,我说以前主要做CV算法,接触和使用过扩散模型,这也算CV大模型🤗4. 算法题:最大子数组和(秒了)5. 硕士研究内容?6. 偏向算法还是调度?有没有调度相关经验?无。。。7. 你们推理部署是怎么做的?我介绍了自己之前负责和参与过的GPU侧和端侧的推理部署8. 写过CUDA吗?熟不熟?学校里深入学过,之后因为业务关系,没啥使用场景,可以再捡起来9. 你还做过AIGC?有没有NLP相关经验?基本的概念和算法比如 tf-idf, n-gram,word2vec 这些都是知道的,做过文本分类任务,了解 Transformer、CLIP10. 有没有多卡推理优化经验?有多卡训练经验,多卡推理没做过。。。11. 问什么时候能来实习?答最快这月底就能到岗,3个月时间可以保证,每周5天12. 你知道岗位base地吗,能接受吗?我说就是期望在国内实习,上海完全能接受,表现出很想去的意愿🤣13. 反问:组内主要业务场景?商品内容理解、文本理解、AI鉴定商品真伪、推理优化等。学聪明了,面试官框框介绍完,我添一句“那还是挺期待的”🤣,疯狂暗示一面面试官貌似就是老大,结束后HR直接说过了,进offer流程。。。今年暑期准备就去这个了,主要是面试官和善,面试体验好、务实,其余都是次要的(没认真找,随便投投,攒攒面试经验,我觉得现在找工作看眼缘、看运气。本来想着回家吃饭睡觉的 日本饭好难吃啊。。。
查看11道真题和解析
点赞 评论 收藏
分享
评论
9
25
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务