淘天多模态大模型面经

✅一面
1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的
2.介绍一下 CLIP
3.了解 LoRA 吗, LoRA 微调的原理是什么
4.了解哪些多模态大模型,简要介绍几个
5.BLIP的三个损失函数分别是什么,数据是怎样清洗的
6.BLIP2相对于 BLIP 有哪些改进,BLIP3又有哪些改进
7.Qwen- VL 的三个训练流程分别是什么,有什么作用
8.视觉编码器和 LLM 连接时,使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点
9.代码:实现多头自注意力
一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的
✅二面
1.自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题
2.了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 dk \ sqrt { d _ k }\ sqrt [ d _ k }的原因是什么
3.后来有哪些比较经典的基于 Transformer 的语言模型, Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2又有哪些改进
4.了解 RLHF 吗, DPO 和 PPO 有什么区别, Loss 是什么样的,各自的优缺点是什么
5.介绍一下 CLIP ,还了解什么其他的对比学习方法
6.开放题:了解哪些多模态大模型,目前多模态大模型最的问题是什么
7.代码:1143.最长公共子序列
二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些
✅三面:
1.自我介绍,然后详细过了一下项目
2.了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,
Transformer 、 BERT 、 GPT 、 LLaMA 、 Qwen ix ,以及当时的o1推理模型
3.平常有尝试过训练过大模型吗,规模小一点的也没关系
4.聊天,包括职业规划等等
三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

昨天 16:33
门头沟学院 Java
码农索隆:很好,你很棒,但是.... 我举报了!!!
字节跳动开奖367人在聊
点赞 评论 收藏
分享
1️⃣抖音一面1、聊项目。2、AUC的两种公式是?你能证明这两种等价的吗?3、BERT-CRF中,为什么要加CRF?好处是?4、self-attention为什么要用QKV三个矩阵,不用有什么问题?有没有哪个模型的Q和K矩阵是一样的?5、reinforce属于on-policy还是off-policy?为什么?6、reinforce带上baseline好处是?reinforce的loss写一下?7、策略梯度会推导吗?简单写一下?8、代码题(代码题一般别着急写,先跟面试官说下思路,确定了再写):lc 46,全排列(lc表示leetcode,下同)。lc 73,矩阵置0。2️⃣抖音二面1、介绍项目。2、知识蒸馏有哪几种?你觉得哪种效果最好?3、nlp的数据增强方法,主要有哪几种?每一种举个例子?4、分类的损失函数为什么是交叉熵而不是mse?5、BERT对输入文本的长度有什么限制,为什么要限制长度呢?6、BigBird里面有哪几种注意力机制?相比原始transformer的self-attention的优势?7、场景题:如何根据拼多多的商品数量,估计淘宝的商品数量?8、给出emb_size, max_len, vocab_size, ff_inner_size,num_heads, 12层,求BERT参数量。9、代码题:n皇后问题。3️⃣抖音三面‍1、简单聊项目。2、CRF和HMM区别?CRF为什么比HMM效果好?3、如果BERT词表很大,比如vocab_size达到几百万,怎么办?4、快速手写一些transformer的mha(多头注意力),伪代码意思一下就行。5、为什么对比学习中,temperature很小,而知识蒸馏的temperature比较大?6、你觉得在抖音买东西,和淘宝、拼多多他们的区别是?(我没在抖音买过,就只能现场编。)7、你最近看到过哪些paper?简单介绍下?8、你觉得自己有那些优缺点?平时喜欢怎么缓解压力?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
点赞 评论 收藏
分享
评论
4
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务