算法打工人小旺

2025-08-06 12:29 中山大学算法工程师发布于山东

关注

淘天多模态大模型面经

✅一面
1．首先是自我介绍和过项目，面试官还一起探讨项目用到的方法，可行性之类的
2．介绍一下 CLIP
3．了解 LoRA 吗， LoRA 微调的原理是什么
4．了解哪些多模态大模型，简要介绍几个
5.BLIP的三个损失函数分别是什么，数据是怎样清洗的
6.BLIP2相对于 BLIP 有哪些改进，BLIP3又有哪些改进
7.Qwen- VL 的三个训练流程分别是什么，有什么作用
8．视觉编码器和 LLM 连接时，使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好，说说各自的优缺点
9．代码：实现多头自注意力
一面比较常规，几乎都是八股问题，我觉得只要了解常见的多模态大模型都问题不大，主要还是要理解各个模型设计的动机是什么，这也是面试最喜欢考察的
✅二面
1．自我介绍和过项目，简要问了项目中使用某些方法的动机，以及是否会导致其他的问题
2．了解 Transformer 吗，编码器和解码器的注意力有什么区别，在计算注意力中时除以 dk \ sqrt { d _ k }\ sqrt [ d _ k ｝的原因是什么
3．后来有哪些比较经典的基于 Transformer 的语言模型， Qwen 相比于原始 Transformer 有哪些结构上的改动，Qwen2又有哪些改进
4．了解 RLHF 吗， DPO 和 PPO 有什么区别， Loss 是什么样的，各自的优缺点是什么
5．介绍一下 CLIP ，还了解什么其他的对比学习方法
6．开放题：了解哪些多模态大模型，目前多模态大模型最的问题是什么
7．代码：1143．最长公共子序列
二面其实也偏常规，几乎也都是八股问题，但是也考察了一些对模型的理解以及知识面的广度，整体来说比一面的难度大一些
✅三面：
1．自我介绍，然后详细过了一下项目
2．了解哪些大模型和多模态大模型，然后就聊了大模型这一路是怎么发展过来的，
Transformer 、 BERT 、 GPT 、 LLaMA 、 Qwen ix ,以及当时的o1推理模型
3．平常有尝试过训练过大模型吗，规模小一点的也没关系
4．聊天，包括职业规划等等
三面比较轻松，面试官说知识点前面两面都考察过了，三面就轻松一些，大概40来分钟吧
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

华南理工大学算法工程师

进面大概要什么背景

点赞回复分享

发布于 2025-09-04 09:28 广东

04-07 00:00

广西大学算法工程师

快手大模型开发一面

1. 全参数微调的显存一般怎么估算全参数微调的显存不能只看模型参数本身，真正上线训练时至少要把参数、梯度、优化器状态和激活值都算进去。最粗略的估算方式是：如果模型参数量是 N，训练精度是 bf16，那么参数大约占 2N 字节，梯度再来一份 2N，如果用 Adam，还要额外保存两组一阶和二阶矩，通常再加 4N + 4N 字节。也就是说，不考虑激活值时，单参数相关内存大致可以按 12N ~ 16N 字节估。真正把 batch size、sequence length、checkpointing、并行策略加进去后，激活值往往才是大头。所以面试里如果只答“参数量乘 2”基本不够。更稳的答法是先给出静态...

AI-Agent面试实战...

点赞评论收藏

分享

03-18 11:15

门头沟学院推荐算法

字节AI大模型算法二面

多模态模型横向对比除了 Video-LLaMA，还了解哪些主流多模态大模型？→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF：基于图像 - 文本对比学习，搭配动量蒸馏来优化图文对齐效果；BLIP：引入 captioner 生成高质量图文对，再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么？两阶段训练流程是怎样的？用到了哪些损失函数？→ 结构：在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1：冻结 ViT 和语言模型，只训练中间的 Q-Former→ Stage2：冻结语言模型，将 Q-Former 与 LM 连接，做指令微调→ 损失：ITC（图文对比损失）+ ITM（图文匹配损失）+ LM 生成损失微调方法（PEFT 全家桶）了解 PEFT 吗？再讲讲 LoRA，重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称，核心是只训练少量参数而不动原模型权重；LoRA 假设模型权重更新量 ΔW 具有低秩特性，将其分解为 A×B，只训练 A、B 两个低秩矩阵，既节省显存又能保留效果除了 LoRA，还有哪些 PEFT 方法？Prefix-tuning 和 P-tuning 有什么区别？→ 其他方法：Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning：在输入序列前加可学习的 prefix，作用于注意力的 K/V 矩阵，更适合 decoder-only 架构→ P-tuning：用小型网络（如 LSTM）生成连续的 soft prompt，解决离散 prompt 不稳定的问题，更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么？多模态特征是如何喂给大模型的？→ 示例流程：视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后，为什么还需要 RLHF？→ 指令微调只是让模型学会遵循指令，但输出可能更偏向 “模板化”；RLHF 是通过人类偏好对齐，让模型输出更符合人类价值观、更自然、更有用的回答，解决 “有用性” 和 “安全性” 问题了解 RLHF 吗？描述它的完整训练流程→ 三阶段流程：① SFT 微调：用高质量指令数据对预训练模型做监督微调，让模型学会基本指令遵循② 训练 Reward Model（RM）：用人类标注的偏好数据训练奖励模型，学习给不同模型输出打分③ PPO 优化：用 RM 作为奖励信号，通过 PPO 算法更新策略模型，最大化 RM 给出的奖励，实现与人类偏好对齐手撕 LeetCode 原题：合并 k 个升序链表→ 核心思路：用小根堆维护 k 个链表的当前节点，每次弹出最小值节点并入结果链表，再将该节点的下一个节点入堆，直到所有链表遍历完毕；时间复杂度 O (N log k)，N 为总节点数

查看9道真题和解析

点赞评论收藏

分享

03-25 18:31

门头沟学院 FPGA工程师

具身智能面试题

DDPM 和 DDIM 的区别是什么？ 第一步：前置小知识（重参数化技巧） 在扩散模型中，我们最常用到一个技巧：如果你有一个符合正态分布的变量 （均值为 ，方差为 ），我们可以把它拆成：  这里的  是一个标准正态分布的纯噪声 。 直白点说： 任意状态 = 确定的基础值 + (随机噪声  噪声强度)。记住这个公式，它是贯穿整个推导的灵魂。 第二步：DDPM 的基础设定（从头到尾加噪） 在原来的 DDPM（去噪扩散概率模型）中，我们有一个清晰的正向加噪过程。 假设我们有一张清晰的图像（或者机器人的一个完美动作），叫做 。我们在它上面不断加噪声，加到第  步时，它变成了 。 DDPM 证明了一个极...

点赞评论收藏

分享

04-02 22:01

门头沟学院 golang

某成都AIGC 出海小厂一面车轮面面经

全是八股轻松拿下，面完隔一天就说 oc 了（接了之后突然和我说加面，后面过了但是说 hc 无了）1. Go 语言有哪些特点2. 值类型和引用类型有哪些3. slice 和 array 的区别4. map 是否并发安全 / 为什么并发写不安全5. goroutine 和线程的区别6. 栈内存和堆内存的使用场景7. Go 的 GC 机制8. 逃逸分析 (escape analysis)9. context 的作用10. MySQL 常用引擎及区别 / 适用场景11. MySQL 索引类型12. 事务四大特性 ACID13. 事务隔离级别及可能造成的问题14. MySQL 底层日志 binlog / redolog / undolog15. MySQL 主从复制原理16. Redis 常用数据类型及适用场景17. Redis 为什么快18. Redis 数据量过大时为什么会变慢19. Redis 持久化机制20. Redis 分布式锁21. 为什么 Go 推荐 goroutine + channel 但还需要 Redis 分布式锁22. 消息队列中间件使用经验23. IO 多路复用原理24. HTTP 有什么特点25. 多模态内容（用户/商品）的点赞/评论/关注聚合展示 - 表结构设计26. 异步写入的缺点 / 一致性问题27. 职业规划28. 自我评价29. 工作中遇到问题如何解决

查看29道真题和解析

点赞评论收藏

分享

03-30 15:45

广西大学算法工程师

好未来大模型算法开发一面

1. 介绍一下 bge-m3 和 DBSCAN，以及它们各自的优势bge-m3 是一个面向检索场景的多功能 embedding 模型，它的特点不是单一做稠密向量表示，而是把 dense、sparse 和 multi-vector 几种检索能力统一到一个模型里。dense 表示负责语义相似，sparse 表示更接近关键词匹配，multi-vector 更适合长文档和细粒度匹配。这样做的好处是一个模型可以兼顾语义召回和词面召回，尤其适合知识检索、教育问答、题目匹配这类场景。DBSCAN 是一种基于密度的聚类算法。它通过两个参数来定义簇：一个是邻域半径 eps，一个是形成核心点所需的最小样本数 mi...

AI-Agent面试实战...

点赞评论收藏

分享

评论

11

51

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 简历上如何体现你的“AI”能力？ #

14745次浏览 331人参与

# 选择和努力，哪个更重要？ #

207192次浏览 1551人参与

# 华泰星战营，提前锁定校招offer #

13226次浏览 389人参与

# 找不到大厂实习可以去小厂吗？ #

19981次浏览 223人参与

# 一人推荐一个值得去的通信/硬件公司 #

262211次浏览 2156人参与

# 没有面试的日子里，你在做什么 #

13174次浏览 358人参与

# vivo求职进展汇总 #

294952次浏览 1610人参与

# 找AI工作应该卷什么？ #

51917次浏览 280人参与

# 哪些AI项目值得做？ #

25024次浏览 610人参与

# 你总挂在第__面？ #

10496次浏览 117人参与

# 实习时最怕听到的一句话 #

22390次浏览 193人参与

# 非技术岗是怎么找实习的 #

333336次浏览 2654人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

200183次浏览 1186人参与

# 你的秋招第一场笔试是哪家 #

330244次浏览 2184人参与

# 秋招笔试记录 #

399718次浏览 2220人参与

# 硬件开发岗知多少 #

28062次浏览 154人参与

# 美团秋招笔试 #

213538次浏览 1183人参与

# 通信和硬件还有转码的必要吗 #

105581次浏览 642人参与

# AI Coding的使用心得 #

36215次浏览 243人参与

# 你简历上最心虚的一句话 #

20701次浏览 229人参与

# 你知道最慷慨和最抠的公司分别是 #

10439次浏览 85人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务