26届校招|字节多模态大模型面经
1️⃣一面
1.自我介绍和过项目
2.知道 deepspeed 和 megatron 吗,分别介绍一下
3.Decoder 文本生成有哪几种方法
4.Attention 为什么要做scaled ,不做会怎么样,为什么用根号 d _ k
5.说一下 Decoder 的因果注意力, QKV 分别来自哪
6.深挖多模态大模型论文用的video - llama ,讲一下大模型的结构
7.LoRA 初始化怎么做的,用的秩是多少,为什么不选其他的数
8. 介绍一下 ALBEF 、 BLIP
2️⃣二面
1.介绍多模态论文
2.论文用了CoT,讲一下论文的CoT是怎么样的
3.介绍transformer 架构
4.BLIP2的结构是什么,两阶段怎么训练的,有哪些损失
5.知道 PEFT 吗,讲一下 LoRA
6.LoRA 是什么,有什么好处
7.Transformer 怎么做加速训练,训练和推理有什么区别
8.一些场景题
3️⃣三面
1.过项目
2.讲一下你用的大模型是什么结构,特征是怎么喂给大模型的
3.讲一下multi-head attention,用pytorch手撕一下,要可以实现cross attention的
4.大模型训练为什么不用SFT
5.知道RLHF吗,讲一下训练流程
6.问了几个电商相关的场景题,用大模型解决 prompt 应该怎么设计,怎么处理prompt的输出,怎么过滤错误格式的输出
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
1.自我介绍和过项目
2.知道 deepspeed 和 megatron 吗,分别介绍一下
3.Decoder 文本生成有哪几种方法
4.Attention 为什么要做scaled ,不做会怎么样,为什么用根号 d _ k
5.说一下 Decoder 的因果注意力, QKV 分别来自哪
6.深挖多模态大模型论文用的video - llama ,讲一下大模型的结构
7.LoRA 初始化怎么做的,用的秩是多少,为什么不选其他的数
8. 介绍一下 ALBEF 、 BLIP
2️⃣二面
1.介绍多模态论文
2.论文用了CoT,讲一下论文的CoT是怎么样的
3.介绍transformer 架构
4.BLIP2的结构是什么,两阶段怎么训练的,有哪些损失
5.知道 PEFT 吗,讲一下 LoRA
6.LoRA 是什么,有什么好处
7.Transformer 怎么做加速训练,训练和推理有什么区别
8.一些场景题
3️⃣三面
1.过项目
2.讲一下你用的大模型是什么结构,特征是怎么喂给大模型的
3.讲一下multi-head attention,用pytorch手撕一下,要可以实现cross attention的
4.大模型训练为什么不用SFT
5.知道RLHF吗,讲一下训练流程
6.问了几个电商相关的场景题,用大模型解决 prompt 应该怎么设计,怎么处理prompt的输出,怎么过滤错误格式的输出
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
在考古的查理斯很好奇:好歹有拒信,我只有暂不匹配

点赞 评论 收藏
分享
点赞 评论 收藏
分享