BILIBILI 多模态视频 AI 产品面经拆解

【BILIBILI 多模态视频 AI 产品面经拆解】三面全流程：从 Prompt 优化到产品大局观

───

📋 原文实录（三面实录）

岗位：多模态视频 AI 产品
面试官背景： B站 AI 视频方向，团队负责产品 + 算法，无专职开发

───

Q1：Prompt 怎么优化，怎么写的？

原题，B站一面。考察 Prompt Engineering 实战经验。

Q2：音画不同步怎么办？

原题，B站一面。视频 AI 处理中的经典工程问题。

Q3：我们主要做各种 prompt 优化，旅游 vlog、赛车 vlog（感兴趣 TTS 吗？）

原题，B站一面。面试官说明团队构成：主要是产品和算法，没有开发。

Q4：为什么要做产品？

原题，B站二面。经典动机题。

Q5：音画不同步、偏移怎么办？有没有音频和视频拆开来的方法？

原题，B站二面。Q2 的升级版，追问技术方案。

Q6：有没有调研过其他的视频识别模型？有没有自己部署过模型，自测过？

原题，B站二面。考察动手能力和技术深度。

Q7：你在 AI 视频剪辑选择模型的时候，是怎么调研的？调研过哪些模型？有没有想过拆开来——视频和音频拆开来分析？

原回答（极详细）：

调研思路：需求分析先行 + 市场（商业 API 服务）与学术调研结合（GitHub、HuggingFace）+ 性能与成本评估 + 小范围 POC（概念验证）+ 技术与指标评估。

调研过的具体模型：

• 视频理解：Video-LLaMA、VideoMAE V2、Google Cloud Video Intelligence API、Google Gemini API
• 音频理解：Dia-1.6B、F5-TTS、Fish Speech (Fish-TTS)、Zonos
• 对话语音模型：Dia-1.6B — 专门为对话设计的开放式 TTS，为每个说话者生成逼真语音，包括情感和非语言声音
• 语音克隆：F5-TTS（零样本，10 秒样本即可）、Fish Speech（多语言）、Zonos（20 万小时训练，擅长语音克隆）
• 音乐生成器：ACE-Step — 新型开源音乐模型，极快速度和连贯性
• ASR：OpenAI Whisper（68 万小时多语言音频）、NVIDIA Parakeet-v2（极快准确）
• 音频-语言模型：Qwen2-Audio-7B、AudioFlamingo 2（长篇音频理解与推理）、Gemini-2.0-Flash
• 说话人分离：pyannote、DiarizationLM

Q8：视频题材方面，除了从内容的角度来考虑对视频进行解析和精进，还有哪些方面？

原回答：考察对视频的深入理解，包括四个维度：

a. 视频结构化与元数据增强：场景识别与分类（室内/室外/白天/夜晚）、事件检测（对话/打斗/演讲/产品展示）、主体识别与跟踪（人物/物体）、时间戳与标签自动化。

b. 视听语言分析与美学评估：镜头语言分析（推拉摇移/景别/构图）、色彩与光线分析（饱和度/亮度/对比度）、音频特征分析（BGM/人声/环境音/情绪识别/噪音检测）、情绪识别（面部表情+肢体语言+语音语调）。

c. 用户偏好与个性化推荐：用户行为数据分析、多维度推荐。

d. 版权与合规性审核：版权内容识别、敏感内容过滤。

Q9：用 AI 做过什么产品？对 B站 AI 功能有哪些理解和建议？

原回答：

作为 C 端用户观察到：

1. AI 视频总结小助手 — 时间戳对应内容
2. 鬼畜区 AI 剪辑和弹幕氛围
3. 评论区 @AI 根据描述或图片找到对应历史番剧

但 C 端功能很难商业化变现。AI 现在更多是面向 B 端 UP 主提效的工具。

关于 NotebookLM：好用的地方——视频拆得很细致，能像参考文献一样使用，能跟 chatbot 聊天了解长视频内容。播客生成功能亮眼。因为是 Google 自己的 YouTube，速度很快。

───

🔍 拆解

拆解一：Prompt 优化考的不是技术，是「业务嗅觉」

B站一面上来就问 Prompt 优化，第二问问音画不同步，第三面直接交底——团队做的是旅游 vlog、赛车 vlog 的 prompt 优化。

这三问串起来看，面试官在做一个判断：你写 prompt 的时候，脑子里想的是 token 还是用户的 vlog？

很多人答 Prompt 优化会陷入「怎么写 chain-of-thought」「few-shot 给几个例子」的技术路径。但 B 站的场景不一样——他们要的不是通用的 prompt 技巧，而是对特定视频类型（旅游、赛车）的理解如何转化为 prompt 设计。

比如赛车 vlog：你需要让 AI 识别出发车瞬间、弯道超车、冲线、引擎声的变化——这些跟普通视频完全不同的语义单元。prompt 优化本质上是领域知识的编码。

面试技巧：如果只是说「我会写详细 prompt + 迭代」，你就掉了。应该先追问「你们现在最头疼的视频类型是什么？prompt 在哪个环节出的问题最多？」——把问题域先定清楚，再谈方案。

拆解二：音画不同步问了两次——第一次问「知不知道」，第二次问「怎么解」

Q2 第一次问是 check 你有没有这个意识。Q5 第二次问才是真正的技术考察。

面试官的升维路线：「有这个问题」→「有没有音频和视频拆开来的方法？」→ 他在引导你去想架构层面的解耦。

把音视频拆开处理，本质上是在问你对多模态 pipeline 的理解：

• 音频流走 ASR + 说话人分离 → 产出带时间戳的文本
• 视频流走场景检测 + 目标追踪 → 产出事件锚点
• 两端在时间轴上对齐 → 解决偏移

这个拆解的思路，比你直接说「我会调节偏移参数」高了不止一个 level。

教训：重复出现的问题不是面试官忘了，是他在换角度测你的深度。答浅了第一遍，第二遍必须升维。

拆解三：候选人的模型调研回答，堪称教科书

Q7 的回答是整个面经里最有价值的一段。候选人的模型调研框架：

需求分析 → 市场调研+学术调研 → 性能成本评估 → POC → 技术指标评估

而且他不是在背名字——他说出了模型之间的分工：

• 视频理解用多模态大模型（Video-LLaMA, Gemini）
• 音频用专门的 TTS/语音克隆（F5-TTS, Fish Speech）
• ASR 用 Whisper/Parakeet
• 说话人分离用 pyannote

这展示了一个核心能力：知道什么任务用什么工具。 AI 产品经理不需要会写模型代码，但必须知道技术方案的边界——什么时候用大模型，什么时候用小模型的组合，什么时候调 API 就够。

面试中可以用的话术模板：「我的选型逻辑是——先定场景，再看 API 成熟度，然后开源自部署做差异化。比如 XX 场景，商业 API 的准确率已经够了，但 YY 场景需要微调开源模型，因为……」

拆解四：Q8 的回答暴露了一个高阶产品思维

面试官问：「除了内容角度，还有哪些方面？」

候选人答了四个维度：结构化元数据、视听语言、用户偏好、版权合规。

这个回答好在哪里？他跳出了「我帮你剪视频」的工具思维，进入了「我理解你的视频为什么火」的平台思维。

BILIBILI 多模态视频 AI 产品面经拆解

全站热榜

创作者周榜