多模态岗么_牛客网

国际著名饶舌歌手

03-17 23:35 北京航空航天大学深度学习

关注

多模态岗么

点赞评论

03-19 15:09

华东师范大学技术美术

拒绝了面试邀请面试，以后还会有机会吗

呜呜了，1-19 发的简历，3-19 收到面试，可是人已经在实习了好想去 mhy不知道影不影响以后的投递

点赞评论收藏

分享

03-16 19:00

同济大学算法工程师

蔚来大模型强化学习训练一面

📍面试公司：蔚来🕐面试时间：2026.03.16💻面试岗位：大语言模型强化学习算法实习生❓面试问题：自我介绍项目经历1，拷打项目动机，方法细节，评测方式，遇到的难点和解决方式，提出的方法为什么有效强化学习算法理论基础，介绍PPO算法，算法计算公式，优点，训练流程，介绍GRPO算法，特点，优势有关强化学习算法的代码库，TRL，VERL，Ray等询问对于Agentic RL 的认识，其中可能存在的难点，答了算法侧的稀疏奖励问题和工程实现上各类工具的稳定性编程题，word1->word2的最小操作次数🙌面试感想：自我介绍吟唱时间太长，适当压缩为教育背景，研究背景，项目/实习经历的简单介...

查看7道真题和解析

点赞评论收藏

分享

03-18 11:15

门头沟学院推荐算法

字节AI大模型算法二面

多模态模型横向对比除了 Video-LLaMA，还了解哪些主流多模态大模型？→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF：基于图像 - 文本对比学习，搭配动量蒸馏来优化图文对齐效果；BLIP：引入 captioner 生成高质量图文对，再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么？两阶段训练流程是怎样的？用到了哪些损失函数？→ 结构：在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1：冻结 ViT 和语言模型，只训练中间的 Q-Former→ Stage2：冻结语言模型，将 Q-Former 与 LM 连接，做指令微调→ 损失：ITC（图文对比损失）+ ITM（图文匹配损失）+ LM 生成损失微调方法（PEFT 全家桶）了解 PEFT 吗？再讲讲 LoRA，重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称，核心是只训练少量参数而不动原模型权重；LoRA 假设模型权重更新量 ΔW 具有低秩特性，将其分解为 A×B，只训练 A、B 两个低秩矩阵，既节省显存又能保留效果除了 LoRA，还有哪些 PEFT 方法？Prefix-tuning 和 P-tuning 有什么区别？→ 其他方法：Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning：在输入序列前加可学习的 prefix，作用于注意力的 K/V 矩阵，更适合 decoder-only 架构→ P-tuning：用小型网络（如 LSTM）生成连续的 soft prompt，解决离散 prompt 不稳定的问题，更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么？多模态特征是如何喂给大模型的？→ 示例流程：视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后，为什么还需要 RLHF？→ 指令微调只是让模型学会遵循指令，但输出可能更偏向 “模板化”；RLHF 是通过人类偏好对齐，让模型输出更符合人类价值观、更自然、更有用的回答，解决 “有用性” 和 “安全性” 问题了解 RLHF 吗？描述它的完整训练流程→ 三阶段流程：① SFT 微调：用高质量指令数据对预训练模型做监督微调，让模型学会基本指令遵循② 训练 Reward Model（RM）：用人类标注的偏好数据训练奖励模型，学习给不同模型输出打分③ PPO 优化：用 RM 作为奖励信号，通过 PPO 算法更新策略模型，最大化 RM 给出的奖励，实现与人类偏好对齐手撕 LeetCode 原题：合并 k 个升序链表→ 核心思路：用小根堆维护 k 个链表的当前节点，每次弹出最小值节点并入结果链表，再将该节点的下一个节点入堆，直到所有链表遍历完毕；时间复杂度 O (N log k)，N 为总节点数

查看9道真题和解析

点赞评论收藏

分享

03-19 15:01

已编辑

同济大学算法工程师

百度大模型后训练一面

📍面试公司：百度 文心一言🕐面试时间：2026.03.18💻面试岗位：大模型RL后训练❓面试问题：自我介绍，教育背景，项目经历项目介绍，基于大语言模型的信号灯控制，问题是什么，如何结合熵，怎么评测，指标结果如何强化学习理论内容，trust-range和PPO的关系PPO是off-policy or on-policy? on-policy为什么会有importance sampling，采样的策略模型和要训练的策略模型有偏差，重要性采样加以修正PPO的clip在优势A 正/负时 限制上/下届，A为正限制上届，A为负限制下届PPO的损失函数怎么计算的？广义优势估计是怎么计算？GAE中lam...

查看17道真题和解析

点赞评论收藏

分享

03-18 19:23

北京大学后端工程师

我实习转正上岸MiniMax了

先交代个人bg：26届北大计算机硕士，后端开发，已拿MiniMax转正Offer。闲来刷牛客发现了MiniMax的话题，也来凑个热闹，分享几点真实体验。关于技术成长：新人也能啃硬骨头入职第二周，mentor给我派了个活：海螺AI的流式输出在高峰期有延迟抖动，目标是P99延迟再降50ms。说实话当时有点懵，心想这不应该是他们干的活么？结果mentor直接拉我看Grafana大盘，拆解M2.5模型推理架构，让我自己找切入点。那一周基本在读代码、看论文、和infra团队过方案。后来我提了个想法：在网关层加自适应批处理策略，根据实时流量动态调整batch大小。mentor看完说思路可行，直接让我写代码上线试试。最后优化上线，高峰期P99延迟降了60ms。怎么说呢，工作确实很硬核，之前实习的时候这种活儿大概率轮不到新人碰。这边倒好，只要方案有数据支撑，没人会因为你是实习生就拦着。关于mentor：教的是怎么思考问题记得有次遇到状态同步的坑，mentor没直接给答案，而是从分布式系统的一致性模型开始推，让我自己琢磨结论。他的原话：不只是会写代码，要成为能设计系统的人。听起来比较简单，但对于校招生来说并没有这些意识，很多时候需要有这样的引路人指引方向，这可能比敲2000行代码都管用。团队里学习氛围也很好，算法专家、infra大牛都有，中午吃饭聊的都是最新论文、模型边界。这种环境待三个月，比自己闷头学一年来得快。关于地理位置还有个挺实际的，公司在海淀区蓟门一号，骑车十分钟到公司。中午甚至能溜回学校吃顿饭，下午再骑回来写代码。对于还在学校想找实习的同学来说，这种通勤体验确实香。大概就分享这么多吧，如果说对MiniMax观望的学弟学妹总结的话，我觉得是这样，如果你想找个地方写写CRUD混个实习经历，那这边可能不太合适，但如果你想碰点真东西、做的东西真能上线跑、愿意被推着往前走，这里确实是个还不错的选择。

MiniMax成长空间 42人发布

点赞评论收藏

分享

牛客热帖

更多

正在热议

更多

# 跟HR说什么能被秒回？ #

10873次浏览 184人参与

# 视觉/交互/设计百问百答 #

76430次浏览 460人参与

# MiniMax求职进展汇总 #

16702次浏览 247人参与

# 春招/暑实第一面是哪家？ #

22263次浏览 241人参与

# 如何一边实习一边找下家？ #

34606次浏览 247人参与

# 你收到了哪些公司的笔试？ #

20666次浏览 115人参与

# 巨人网络春招 #

10390次浏览 164人参与

# 面试官最爱问的 AI 问题是...... #

18578次浏览 621人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

3638次浏览 97人参与

# 你的嫡系AI是哪个？ #

5048次浏览 119人参与

# 现在入门AI应该走哪些方向？ #

5183次浏览 106人参与

# 总结:哪家公司面试体验感最差 #

105084次浏览 466人参与

# 京东美团大战，你怎么看？ #

174559次浏览 883人参与

# 京东开奖 #

673962次浏览 3238人参与

# 正在春招的你，也参与了去年秋招吗？ #

359719次浏览 2614人参与

# 面试吐槽bot #

178606次浏览 832人参与

# 想给25届机械人的秋招建议 #

46263次浏览 247人参与

# 职能管理面试记录 #

9394次浏览 46人参与

# 第一次面试 #

1098272次浏览 13827人参与

# 电信求职进展汇总 #

45558次浏览 210人参与

# 阿里巴巴工作体验 #

27079次浏览 61人参与

# 实习生如何通过转正 #

130213次浏览 1477人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务