字节AI大模型算法二面

多模态模型横向对比
除了 Video-LLaMA，还了解哪些主流多模态大模型？
→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等
简单介绍 ALBEF 和 BLIP 这两个模型的核心设计
→ ALBEF：基于图像 - 文本对比学习，搭配动量蒸馏来优化图文对齐效果；BLIP：引入 captioner 生成高质量图文对，再结合 filter 机制筛选优质数据
BLIP-2 的整体结构是什么？两阶段训练流程是怎样的？用到了哪些损失函数？
→ 结构：在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁
→ Stage1：冻结 ViT 和语言模型，只训练中间的 Q-Former
→ Stage2：冻结语言模型，将 Q-Former 与 LM 连接，做指令微调
→ 损失：ITC（图文对比损失）+ ITM（图文匹配损失）+ LM 生成损失

微调方法（PEFT 全家桶）
了解 PEFT 吗？再讲讲 LoRA，重点说明低秩假设的合理性
→ PEFT 是参数高效微调的统称，核心是只训练少量参数而不动原模型权重；LoRA 假设模型权重更新量 ΔW 具有低秩特性，将其分解为 A×B，只训练 A、B 两个低秩矩阵，既节省显存又能保留效果
除了 LoRA，还有哪些 PEFT 方法？Prefix-tuning 和 P-tuning 有什么区别？
→ 其他方法：Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等
→ Prefix-tuning：在输入序列前加可学习的 prefix，作用于注意力的 K/V 矩阵，更适合 decoder-only 架构
→ P-tuning：用小型网络（如 LSTM）生成连续的 soft prompt，解决离散 prompt 不稳定的问题，更适配 encoder-decoder 模型

大模型训练范式
你项目中用到的大模型结构是什么？多模态特征是如何喂给大模型的？
→ 示例流程：视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM
大模型在做了指令微调后，为什么还需要 RLHF？
→ 指令微调只是让模型学会遵循指令，但输出可能更偏向 “模板化”；RLHF 是通过人类偏好对齐，让模型输出更符合人类价值观、更自然、更有用的回答，解决 “有用性” 和 “安全性” 问题
了解 RLHF 吗？描述它的完整训练流程
→ 三阶段流程：
① SFT 微调：用高质量指令数据对预训练模型做监督微调，让模型学会基本指令遵循
② 训练 Reward Model（RM）：用人类标注的偏好数据训练奖励模型，学习给不同模型输出打分
③ PPO 优化：用 RM 作为奖励信号，通过 PPO 算法更新策略模型，最大化 RM 给出的奖励，实现与人类偏好对齐
手撕 LeetCode 原题：合并 k 个升序链表
→ 核心思路：用小根堆维护 k 个链表的当前节点，每次弹出最小值节点并入结果链表，再将该节点的下一个节点入堆，直到所有链表遍历完毕；时间复杂度 O (N log k)，N 为总节点数 #面试官最爱问的 AI 问题是......#

字节AI大模型算法二面

全站热榜

创作者周榜