观见智联-算法实习生(视频大模型)面经

算法:
一、算法题 & 代码思路
滑动窗口最大值的解题思路是什么?
为什么选择使用双端队列?
双端队列维护了哪些内容、具备什么性质?
口述讲解这道题的整体思路(被judge怀疑写力扣不够多了)

八股:
二、大大模型模型预训练流程
一个开源大模型在预训练过程中会经历哪些步骤?
你是从哪些方面、哪些渠道学习并理解这些预训练知识的?(可能这里开始质疑我有点背答案的逻辑了)
BERT 和 GPT 架构最核心、最本质的区别是什么?

四、简历拷打
开始从项目去拷问:
你所理解的视频理解是粗粒度总结,还是细粒度描述?能否捕捉动作的开始、过程、结束?
固定摄像头场景单一有限,用大模型做事件判断性价比是否不高?
简单任务(如闯入检测)是否用小模型、路由、MoE 架构更合适?
这种情况下,使用视觉大模型(VLM)的意义在哪里?
用大模型做数据预标注,为后续小模型服务,这套思路是否合理?
大模型在工业落地中,真正的性价比体现在什么地方?

五、反问
1,公司业务是否会涉及视频细粒度动作理解?不只是判断 “动作是否发生”,还要精确识别动作发生次数,避免重复扣费、误扣费这类问题。
回答:确实有这类细粒度视频理解与识别需求,核心是精准、不重复、不误判。
目前业界 / 团队常用方案:
用多个专用小模型组合,针对特定任务做定制化小模型。
采用 MoE(混合专家模型) 架构,但不是简单路由,路由逻辑需要专门设计,用来解决特定任务。
现在也在探索:
利用大模型 / 大语言模型的能力,提升复用性,希望换任务也能快速适配,减少重复开发,因此在尝试搭建新架构。

2. 关于细粒度视频数据 & 数据集构建
训练这些细粒度识别小模型时,数据和标注是怎么获取 / 构建的?
回答:采集行业真实数据
主要流程:
采集行业真实数据 → 交给外包公司标注(YOLO、分割等常规标注)。
模型上线部署后,把线上回传的困难样本 / 错误样本再人工补充标注。
整体思路:
先众包 / 外包大规模标注
再人工筛选、修正难例,是业界比较经典的做法。

3,面试官一般怎么判断面试者有没有背稿、有没有用辅助工具?
回答:
看表达一致性
真实做过的人,叙述风格、逻辑是统一的;
背稿 / 套话,容易在切换问题时风格断裂、内容漂浮。
看是否聚焦问题本身
真懂的人会顺着问题深入聊;
套答案的人容易答非所问、逻辑不连贯。
紧张很正常
面试少、科研多的同学容易紧张,多面几次就会像日常学术聊天一样自然。
建议把面试当成和老师 / 教授学术讨论,懂就说懂,不懂就坦诚,重点看人岗匹配。

大概率寄了,就当聊聊天
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务