BILIBILI 多模态视频 AI 产品面经拆解

【BILIBILI 多模态视频 AI 产品面经拆解】三面全流程:从 Prompt 优化到产品大局观

───

📋 原文实录(三面实录)

岗位: 多模态视频 AI 产品
面试官背景: B站 AI 视频方向,团队负责产品 + 算法,无专职开发

───

Q1:Prompt 怎么优化,怎么写的?

原题,B站一面。考察 Prompt Engineering 实战经验。

Q2:音画不同步怎么办?

原题,B站一面。视频 AI 处理中的经典工程问题。

Q3:我们主要做各种 prompt 优化,旅游 vlog、赛车 vlog(感兴趣 TTS 吗?)

原题,B站一面。面试官说明团队构成:主要是产品和算法,没有开发。

Q4:为什么要做产品?

原题,B站二面。经典动机题。

Q5:音画不同步、偏移怎么办?有没有音频和视频拆开来的方法?

原题,B站二面。Q2 的升级版,追问技术方案。

Q6:有没有调研过其他的视频识别模型?有没有自己部署过模型,自测过?

原题,B站二面。考察动手能力和技术深度。

Q7:你在 AI 视频剪辑选择模型的时候,是怎么调研的?调研过哪些模型?有没有想过拆开来——视频和音频拆开来分析?

原回答(极详细):

调研思路: 需求分析先行 + 市场(商业 API 服务)与学术调研结合(GitHub、HuggingFace)+ 性能与成本评估 + 小范围 POC(概念验证)+ 技术与指标评估。

调研过的具体模型:

• 视频理解:Video-LLaMA、VideoMAE V2、Google Cloud Video Intelligence API、Google Gemini API
• 音频理解:Dia-1.6B、F5-TTS、Fish Speech (Fish-TTS)、Zonos
• 对话语音模型:Dia-1.6B — 专门为对话设计的开放式 TTS,为每个说话者生成逼真语音,包括情感和非语言声音
• 语音克隆:F5-TTS(零样本,10 秒样本即可)、Fish Speech(多语言)、Zonos(20 万小时训练,擅长语音克隆)
• 音乐生成器:ACE-Step — 新型开源音乐模型,极快速度和连贯性
• ASR:OpenAI Whisper(68 万小时多语言音频)、NVIDIA Parakeet-v2(极快准确)
• 音频-语言模型:Qwen2-Audio-7B、AudioFlamingo 2(长篇音频理解与推理)、Gemini-2.0-Flash
• 说话人分离:pyannote、DiarizationLM

Q8:视频题材方面,除了从内容的角度来考虑对视频进行解析和精进,还有哪些方面?

原回答: 考察对视频的深入理解,包括四个维度:

a. 视频结构化与元数据增强: 场景识别与分类(室内/室外/白天/夜晚)、事件检测(对话/打斗/演讲/产品展示)、主体识别与跟踪(人物/物体)、时间戳与标签自动化。

b. 视听语言分析与美学评估: 镜头语言分析(推拉摇移/景别/构图)、色彩与光线分析(饱和度/亮度/对比度)、音频特征分析(BGM/人声/环境音/情绪识别/噪音检测)、情绪识别(面部表情+肢体语言+语音语调)。

c. 用户偏好与个性化推荐: 用户行为数据分析、多维度推荐。

d. 版权与合规性审核: 版权内容识别、敏感内容过滤。

Q9:用 AI 做过什么产品?对 B站 AI 功能有哪些理解和建议?

原回答:

作为 C 端用户观察到:

1. AI 视频总结小助手 — 时间戳对应内容
2. 鬼畜区 AI 剪辑和弹幕氛围
3. 评论区 @AI 根据描述或图片找到对应历史番剧

但 C 端功能很难商业化变现。AI 现在更多是面向 B 端 UP 主提效的工具。

关于 NotebookLM:好用的地方——视频拆得很细致,能像参考文献一样使用,能跟 chatbot 聊天了解长视频内容。播客生成功能亮眼。因为是 Google 自己的 YouTube,速度很快。

───

🔍 拆解

拆解一:Prompt 优化考的不是技术,是「业务嗅觉」

B站一面上来就问 Prompt 优化,第二问问音画不同步,第三面直接交底——团队做的是旅游 vlog、赛车 vlog 的 prompt 优化。

这三问串起来看,面试官在做一个判断:你写 prompt 的时候,脑子里想的是 token 还是用户的 vlog?

很多人答 Prompt 优化会陷入「怎么写 chain-of-thought」「few-shot 给几个例子」的技术路径。但 B 站的场景不一样——他们要的不是通用的 prompt 技巧,而是对特定视频类型(旅游、赛车)的理解如何转化为 prompt 设计。

比如赛车 vlog:你需要让 AI 识别出发车瞬间、弯道超车、冲线、引擎声的变化——这些跟普通视频完全不同的语义单元。prompt 优化本质上是领域知识的编码。

面试技巧: 如果只是说「我会写详细 prompt + 迭代」,你就掉了。应该先追问「你们现在最头疼的视频类型是什么?prompt 在哪个环节出的问题最多?」——把问题域先定清楚,再谈方案。

拆解二:音画不同步问了两次——第一次问「知不知道」,第二次问「怎么解」

Q2 第一次问是 check 你有没有这个意识。Q5 第二次问才是真正的技术考察。

面试官的升维路线:「有这个问题」→「有没有音频和视频拆开来的方法?」→ 他在引导你去想架构层面的解耦。

把音视频拆开处理,本质上是在问你对多模态 pipeline 的理解:

• 音频流走 ASR + 说话人分离 → 产出带时间戳的文本
• 视频流走场景检测 + 目标追踪 → 产出事件锚点
• 两端在时间轴上对齐 → 解决偏移

这个拆解的思路,比你直接说「我会调节偏移参数」高了不止一个 level。

教训: 重复出现的问题不是面试官忘了,是他在换角度测你的深度。答浅了第一遍,第二遍必须升维。

拆解三:候选人的模型调研回答,堪称教科书

Q7 的回答是整个面经里最有价值的一段。候选人的模型调研框架:

需求分析 → 市场调研+学术调研 → 性能成本评估 → POC → 技术指标评估

而且他不是在背名字——他说出了模型之间的分工:

• 视频理解用多模态大模型(Video-LLaMA, Gemini)
• 音频用专门的 TTS/语音克隆(F5-TTS, Fish Speech)
• ASR 用 Whisper/Parakeet
• 说话人分离用 pyannote

这展示了一个核心能力:知道什么任务用什么工具。 AI 产品经理不需要会写模型代码,但必须知道技术方案的边界——什么时候用大模型,什么时候用小模型的组合,什么时候调 API 就够。

面试中可以用的话术模板: 「我的选型逻辑是——先定场景,再看 API 成熟度,然后开源自部署做差异化。比如 XX 场景,商业 API 的准确率已经够了,但 YY 场景需要微调开源模型,因为……」

拆解四:Q8 的回答暴露了一个高阶产品思维

面试官问:「除了内容角度,还有哪些方面?」

候选人答了四个维度:结构化元数据、视听语言、用户偏好、版权合规。

这个回答好在哪里?他跳出了「我帮你剪视频」的工具思维,进入了「我理解你的视频为什么火」的平台思维。
全部评论
Ai产品面经咨询找:SamSun_AI25
点赞 回复 分享
发布于 05-22 16:56 上海

相关推荐

评论
3
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务