新浪多模态大模型三轮技术面

一切都从昨天下午原以为是KPI的一面开始，没想到直接开出意外惊喜

一面：

自我介绍，然后讲了刚投的一篇1区论文的工作，分析整体的框架、具体的技术细节，常见的反问点（为什么这么设计、为什么有效，相比于之前的工作，主要好在哪里、最核心的贡献是什么）

面试官自称是NLP背景的，然后问了一些常见的视觉和多模态大模型的模型结构、损失函数设计、训练及推理过程等（面试官有可能是故意扮猪吃老虎哈哈）

Coding：最接近的三数之和；共享屏幕本地IDE，秒了一个n^2logn的做法，让进一步优化，最优解是双指针；不过面试官觉得编码能力应该可以，实现很快，提示完直接让过了

原本以为月底发一面是KPI，结果面试官问我后面还有没有时间，现场约二面

，等面试官进会议

二面：

自我介绍，二面面试官非常重量级（进会议的title和面试的深度广度全都拉满了）

首先很深入了聊了相当多关于MLLM的内容：介绍一些MLLM的现状，再选一个近期的多模态大模型，介绍相较于CLIP、LlaVA早期版本进行了哪些改进: Qwen技术点比较多，之前没系统整理过，说了自己还有点印象的Intern-VL2，不过上次看Intern-VL2的论文已经是三个月前了，大概只答上两点比较核心的。然后继续深挖目前多模态大模型在数据层面相较于之前的改进，这个没答上来

之后被面试官深挖了LoRA，可以说LoRA的每一个细节的角落全都被挖的干干净净，还有不少开放性思考题，甚至比上次小鹏CV大模型一面面试官挖的还狠得多

。不过上次被拷打之后就很系统地整理了LoRA的相关内容，勉强答得还行吧

以后再不能当git clone侠了

。

然后面试官针对我的专业背景（统计），深挖了几个ML、DL相关的数学层面的问题，有让共享屏幕开白板写过程和推导（不是特别难，不过挺新颖的

，秋招还是第一次面试被问到这种类型的问题

）；紧接着针对我的Nature子刊工作中用到的Gaussian Graphical Model，讲了其与传统ML模型、神经网络和大模型的差异、区别和各自的优劣势。

最后是一些相对开放性的问题：你是如何使用现代的LLM产品提高工作、学习和编码效率的？为什么这种方式有效果？LLM、LVM、MLLM未来发展的方向和前景大概是怎样的？

整个二面的问题不止这些，太多了，又深又广，很多具体已经记不太清了

，而且回答的过程中几乎都有进一步反问，深挖了很多东西

二面面完，面试官也是直接当场联系三面面试官

三面：

自我介绍，三面面试官更是整个集团的技术大佬，NLP相关经验非常丰富，整场面试问的内容也偏NLP相关，我之前几乎0 NLP相关经验，汗流浃背了可以说

，不过好在基础还行，凭自己的做CV和MLLM的积累，基本都答上了

首先介绍了之前lab实习中做的LLM剪枝优化迁移的工作，然后深挖了相关的技术细节，不过刚聊完电脑音频直接罢工了

，重新约到11.1下午

11.1下午

完整描述CLIP的原理、架构、工作过程、怎么对齐、怎么做image caption

完整描述transformer输入一个文本序列如何做下一句预测的全过程，深挖了tokenize、位置编码、MHA、FFN、损失函数、输出转换各个部分

接着从我项目经历中有关传统ML的经验出发，问了一些ML相关的八股，难度不大

然后是偏主管面的一些内容：对工作环境的期望、自身性格优缺点等

反问环节逮住大佬问了目前MLLM的相关业务和技术现状；最后是关于面试流程上的一些问题

总体体验非常棒的三轮面试

拷打深度广度强度高，但是也学到了非常多的东西，这也算是对自己能力的一种认可吧

现在想想当初9月份面试难度远不及现在的团子、阿里、得物、理想，却被面挂了，可能还是简历不如现在优化的好，没能突出自己的优势，也没有勇气直接投更匹配自己的岗位吧（当初为了求保底，基本都投的机器学习、数据挖掘这种最“泛”的算法岗，或许应该早点鼓起勇气直接投自驾、MLLM和CV的）。今天看到牛u们团子开奖，各种sp、ssp，确实感觉羡慕+遗憾。

最后许愿一个HR面吧

#秋招# #算法工程师# #牛客创作赏金赛# #新浪#