字节多模态大模型二面 日常实习

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.项目拷打
2.论文拷打
3.介绍transformer 架构
4.BLIP2的结构是什么,两阶段怎么训练的,有哪些损失
5.知道 PEFT 吗,讲一下 LoRA
6.LoRA 是什么,有什么好处
7.Transformer 怎么做加速训练,训练和推理有什么区别
8.一些场景题
全部评论
感觉问的似乎不多吧
点赞 回复 分享
发布于 03-22 22:27 北京
有面试过同岗的朋友欢迎评论区交流
点赞 回复 分享
发布于 03-19 11:44 四川

相关推荐

AI大模型算法,一环扣一环的拷打Transformer 基础详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)Decoder 的因果注意力中,Q、K、V 分别来自哪里?→ Q 来自当前 Decoder 输入(已生成的 token 序列),K 和 V 也来自同一序列(需 mask 未来信息)Attention 为什么要 scaled?不做会怎样?为什么是√dₖ?→ 点积随 dₖ增大会让 softmax 进入饱和区,导致梯度消失;除以√dₖ可使方差稳定在 1(数学推导参考 Vaswani 论文)Transformer 如何加速推理?KV Cache 是什么?训练 vs 推理的并行性差异?→ 训练时所有 token 并行计算;推理时自回归,KV Cache 可缓存历史 K/V,避免重复计算,大幅提速多模态论文深挖(以 Video-LLaMA 为例)讲解 Video-LLaMA 的整体结构→ 视频编码器(如 ViT + Temporal Aggregator)→ 投影层(对齐文本空间)→ LLaMA 语言模型论文中 CoT(Chain-of-Thought)的具体设计?→ 在 prompt 中加入推理步骤示例(如 “视频中先看到人挥手,然后狗跑过来…”),引导模型分步作答微调 & 分布式训练微调用了 LoRA,介绍其原理→ 将权重更新 ΔW 分解为低秩矩阵 A×B,冻结原模型,只训练 A、B,大幅减少可训练参数LoRA 初始化怎么做?秩(rank)设为多少?为什么选这个值?→ A ~ N (0, σ²),B 初始化为 0;常用 rank=8 或 16,在效果和参数量间取得平衡(实验验证)知道 DeepSpeed 和 Megatron 吗?分别说说→ DeepSpeed(微软):主打 ZeRO 显存优化;Megatron-LM(NVIDIA):张量并行 + 流水线并行论文用 DeepSpeed,三个 Stage(ZeRO-1/2/3)分别是什么?→ Stage1:优化器状态分片;Stage2:+ 梯度分片;Stage3:+ 模型参数分片(通信换显存)二面下一篇再写吧,力竭了
查看10道真题和解析
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
正在热议
更多
# 长得好看会提高面试通过率吗? #
4724次浏览 49人参与
# 离家近房租贵VS离家远但房租低,怎么选 #
16931次浏览 137人参与
# MiniMax求职进展汇总 #
25327次浏览 323人参与
# 沪漂/北漂你觉得哪个更苦? #
1725次浏览 42人参与
# 你的实习产出是真实的还是包装的? #
3283次浏览 55人参与
# 春招至今,你的战绩如何? #
16326次浏览 148人参与
# 巨人网络春招 #
11573次浏览 230人参与
# HR最不可信的一句话是__ #
1143次浏览 33人参与
# AI面会问哪些问题? #
1005次浏览 26人参与
# 你做过最难的笔试是哪家公司 #
1347次浏览 23人参与
# AI时代,哪个岗位还有“活路” #
3025次浏览 53人参与
# 不考虑薪资和职业,你最想做什么工作呢? #
152968次浏览 889人参与
# 简历第一个项目做什么 #
32220次浏览 364人参与
# 军工所铁饭碗 vs 互联网高薪资,你会选谁 #
8037次浏览 43人参与
# XX请雇我工作 #
51167次浏览 171人参与
# 简历中的项目经历要怎么写? #
311203次浏览 4274人参与
# 投格力的你,拿到offer了吗? #
178411次浏览 891人参与
# 你最满意的offer薪资是哪家公司? #
77025次浏览 375人参与
# AI时代,哪些岗位最容易被淘汰 #
64919次浏览 895人参与
# 当下环境,你会继续卷互联网,还是看其他行业机会 #
187673次浏览 1123人参与
# 你怎么看待AI面试 #
180946次浏览 1325人参与
# 正在春招的你,也参与了去年秋招吗? #
364447次浏览 2642人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务