字节一面
AI大模型算法,一环扣一环的拷打
Transformer 基础
详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)
Decoder 的因果注意力中,Q、K、V 分别来自哪里?
→ Q 来自当前 Decoder 输入(已生成的 token 序列),K 和 V 也来自同一序列(需 mask 未来信息)
Attention 为什么要 scaled?不做会怎样?为什么是√dₖ?
→ 点积随 dₖ增大会让 softmax 进入饱和区,导致梯度消失;除以√dₖ可使方差稳定在 1(数学推导参考 Vaswani 论文)
Transformer 如何加速推理?KV Cache 是什么?训练 vs 推理的并行性差异?
→ 训练时所有 token 并行计算;推理时自回归,KV Cache 可缓存历史 K/V,避免重复计算,大幅提速
多模态论文深挖(以 Video-LLaMA 为例)
讲解 Video-LLaMA 的整体结构
→ 视频编码器(如 ViT + Temporal Aggregator)→ 投影层(对齐文本空间)→ LLaMA 语言模型
论文中 CoT(Chain-of-Thought)的具体设计?
→ 在 prompt 中加入推理步骤示例(如 “视频中先看到人挥手,然后狗跑过来…”),引导模型分步作答
微调 & 分布式训练
微调用了 LoRA,介绍其原理
→ 将权重更新 ΔW 分解为低秩矩阵 A×B,冻结原模型,只训练 A、B,大幅减少可训练参数
LoRA 初始化怎么做?秩(rank)设为多少?为什么选这个值?
→ A ~ N (0, σ²),B 初始化为 0;常用 rank=8 或 16,在效果和参数量间取得平衡(实验验证)
知道 DeepSpeed 和 Megatron 吗?分别说说
→ DeepSpeed(微软):主打 ZeRO 显存优化;Megatron-LM(NVIDIA):张量并行 + 流水线并行
论文用 DeepSpeed,三个 Stage(ZeRO-1/2/3)分别是什么?
→ Stage1:优化器状态分片;Stage2:+ 梯度分片;Stage3:+ 模型参数分片(通信换显存)
二面下一篇再写吧,力竭了 #面试官最爱问的 AI 问题是......#
Transformer 基础
详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)
Decoder 的因果注意力中,Q、K、V 分别来自哪里?
→ Q 来自当前 Decoder 输入(已生成的 token 序列),K 和 V 也来自同一序列(需 mask 未来信息)
Attention 为什么要 scaled?不做会怎样?为什么是√dₖ?
→ 点积随 dₖ增大会让 softmax 进入饱和区,导致梯度消失;除以√dₖ可使方差稳定在 1(数学推导参考 Vaswani 论文)
Transformer 如何加速推理?KV Cache 是什么?训练 vs 推理的并行性差异?
→ 训练时所有 token 并行计算;推理时自回归,KV Cache 可缓存历史 K/V,避免重复计算,大幅提速
多模态论文深挖(以 Video-LLaMA 为例)
讲解 Video-LLaMA 的整体结构
→ 视频编码器(如 ViT + Temporal Aggregator)→ 投影层(对齐文本空间)→ LLaMA 语言模型
论文中 CoT(Chain-of-Thought)的具体设计?
→ 在 prompt 中加入推理步骤示例(如 “视频中先看到人挥手,然后狗跑过来…”),引导模型分步作答
微调 & 分布式训练
微调用了 LoRA,介绍其原理
→ 将权重更新 ΔW 分解为低秩矩阵 A×B,冻结原模型,只训练 A、B,大幅减少可训练参数
LoRA 初始化怎么做?秩(rank)设为多少?为什么选这个值?
→ A ~ N (0, σ²),B 初始化为 0;常用 rank=8 或 16,在效果和参数量间取得平衡(实验验证)
知道 DeepSpeed 和 Megatron 吗?分别说说
→ DeepSpeed(微软):主打 ZeRO 显存优化;Megatron-LM(NVIDIA):张量并行 + 流水线并行
论文用 DeepSpeed,三个 Stage(ZeRO-1/2/3)分别是什么?
→ Stage1:优化器状态分片;Stage2:+ 梯度分片;Stage3:+ 模型参数分片(通信换显存)
二面下一篇再写吧,力竭了 #面试官最爱问的 AI 问题是......#
全部评论
相关推荐
iiooz:别想太多了,面试官如果看不上,就不会约面了,腾讯很少所谓的kpi,有面就说明能力肯定不错,只是每个面试官筛选方式不同,二面甚至只跟你聊生活的都有,鹅还是很开放的在筛选人这一块 点赞 评论 收藏
分享
03-15 21:49
广东工业大学 Java 点赞 评论 收藏
分享
不管什么都不想跳动了:本人美团百度快手都待过,建议肯定是直接留快手多一点产出后转正or直接冲字节腾讯暑期吧。一是快手从福利到基建都吊打另外两家。美团现在这个业务比较惨,本来毛利就很低,亏损严重,今年很可能要优化人力降低成本,去了别说日常,就算暑期后面都很可能被优化。百度其实实习生权限挺高的,可以接触到一些含金量高的项目,但是现在的风评不如之前了,薪资也不高。二是转正概率和薪资是跟产出挂钩的,你都在手子已经积累产出了,去其他家日常实习产出都是从0开始,肯定不可能有你在手子转正可能性大啊,现在日常压根没必要去,而且我有两个师弟都是在快手日常转正的,不用太担心,安心留在手子一边多做一点产出然后一边冲字节腾讯暑期,字节腾讯今年实习岗位非常多的,不如好好把握这个,加油。
查看18道真题和解析 点赞 评论 收藏
分享