1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的2.介绍一下 CLIP3.了解 LoRA 吗, LoRA 微调的原理是什么4.了解哪些多模态大模型,简要介绍几个5.BLIP的三个损失函数分别是什么,数据是怎样清洗的6.BLIP2相对于 BLIP 有哪些改进,BLIP3又有哪些改进7.Qwen- VL 的三个训练流程分别是什么,有什么作用8.视觉编码器和 LLM 连接时,使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点9.代码:实现多头自注意力一面比较常规,几乎都是八股问题,只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的