抖音电商 训推岗凉经

bg

一段芯片厂推理框架开发实习

一个推理框架开发的项目

一面

一面的面试官是搞算法的,可能对推理相关的内容了解的不多,主要是针对CUDA的内容问的,比如内存模型,加速方法等,不算深入。顺便还考了一个softmax的CUDA手撕。

其他的就是针对简历上提到的一些工作进行了提问,因为面试官本身也了解不深入,所以算是给他回答一些疑惑。

手撕除了上面说到的CUDA,还有LC19删除链表的倒数第N个节点。

二面

一开始就是对项目和实习进行了询问,属于聊天型的。

然后从简历出发,考了一些八股,flash attention、attention的计算复杂度,llama模型结构,为什么注意力分数计算要除以根号d,KV cache的压缩方法。

比较常规的八股,但是问的很浅,比如KV cache压缩方法中,我提到说知道MQA和GQA,然后也没深入问。还问到了分布式训练的内容,我提到说相关的论文都看过,但是没有实际经验。其实除了上面提到的八股,其他问题都是问我知不知道,无论知道还是不知道都没有再深入问。

面试官给提了两点建议:要实际跑一下分布式训练(我的大多数工作都是推理,训练只看过论文),然后要对tensorRT-llm熟悉(只深入看过vllm,tensorRT-llm确实了解的不多)。

手撕是LC215数组中的第K个最大元素。

本来以为秋招更看重的是基础,面试官给提的建议可以下来后慢慢学,没想到这两条建议实际上给判了死刑。在反问的时候面试官建议我投AML,想想也是很明显的暗示了。

HR反馈说面评都很不错,感觉还是岗位匹配度不够吧,通过反问猜到这个业务的HC应该不会多,可能更希望候选者能够尽可能的匹配,而我又没有训练的经验,因此挂了。其实说来应该还有一个原因,面试官提到目前的业务是一个正式工和一个实习生,面试开始的时候也问了我能不能实习的一些问题,感觉是比较缺马上能干活的人。

#字节跳动##面经##大模型推理##大模型训练#
全部评论
抖音➕电商,双bug有点卷
5 回复 分享
发布于 2024-08-21 23:30 黑龙江
好难
1 回复 分享
发布于 2024-08-22 23:25 黑龙江
老哥方便问下什么学历?
点赞 回复 分享
发布于 2024-09-01 11:21 福建
点赞 回复 分享
发布于 2024-08-21 21:28 四川

相关推荐

AI大模型算法,一环扣一环的拷打Transformer 基础详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)Decoder 的因果注意力中,Q、K、V 分别来自哪里?→ Q 来自当前 Decoder 输入(已生成的 token 序列),K 和 V 也来自同一序列(需 mask 未来信息)Attention 为什么要 scaled?不做会怎样?为什么是√dₖ?→ 点积随 dₖ增大会让 softmax 进入饱和区,导致梯度消失;除以√dₖ可使方差稳定在 1(数学推导参考 Vaswani 论文)Transformer 如何加速推理?KV Cache 是什么?训练 vs 推理的并行性差异?→ 训练时所有 token 并行计算;推理时自回归,KV Cache 可缓存历史 K/V,避免重复计算,大幅提速多模态论文深挖(以 Video-LLaMA 为例)讲解 Video-LLaMA 的整体结构→ 视频编码器(如 ViT + Temporal Aggregator)→ 投影层(对齐文本空间)→ LLaMA 语言模型论文中 CoT(Chain-of-Thought)的具体设计?→ 在 prompt 中加入推理步骤示例(如 “视频中先看到人挥手,然后狗跑过来…”),引导模型分步作答微调 & 分布式训练微调用了 LoRA,介绍其原理→ 将权重更新 ΔW 分解为低秩矩阵 A×B,冻结原模型,只训练 A、B,大幅减少可训练参数LoRA 初始化怎么做?秩(rank)设为多少?为什么选这个值?→ A ~ N (0, σ²),B 初始化为 0;常用 rank=8 或 16,在效果和参数量间取得平衡(实验验证)知道 DeepSpeed 和 Megatron 吗?分别说说→ DeepSpeed(微软):主打 ZeRO 显存优化;Megatron-LM(NVIDIA):张量并行 + 流水线并行论文用 DeepSpeed,三个 Stage(ZeRO-1/2/3)分别是什么?→ Stage1:优化器状态分片;Stage2:+ 梯度分片;Stage3:+ 模型参数分片(通信换显存)二面下一篇再写吧,力竭了
查看10道真题和解析
点赞 评论 收藏
分享
评论
5
16
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务