抖音电商 训推岗凉经

bg

一段芯片厂推理框架开发实习

一个推理框架开发的项目

一面

一面的面试官是搞算法的,可能对推理相关的内容了解的不多,主要是针对CUDA的内容问的,比如内存模型,加速方法等,不算深入。顺便还考了一个softmax的CUDA手撕。

其他的就是针对简历上提到的一些工作进行了提问,因为面试官本身也了解不深入,所以算是给他回答一些疑惑。

手撕除了上面说到的CUDA,还有LC19删除链表的倒数第N个节点。

二面

一开始就是对项目和实习进行了询问,属于聊天型的。

然后从简历出发,考了一些八股,flash attention、attention的计算复杂度,llama模型结构,为什么注意力分数计算要除以根号d,KV cache的压缩方法。

比较常规的八股,但是问的很浅,比如KV cache压缩方法中,我提到说知道MQA和GQA,然后也没深入问。还问到了分布式训练的内容,我提到说相关的论文都看过,但是没有实际经验。其实除了上面提到的八股,其他问题都是问我知不知道,无论知道还是不知道都没有再深入问。

面试官给提了两点建议:要实际跑一下分布式训练(我的大多数工作都是推理,训练只看过论文),然后要对tensorRT-llm熟悉(只深入看过vllm,tensorRT-llm确实了解的不多)。

手撕是LC215数组中的第K个最大元素。

本来以为秋招更看重的是基础,面试官给提的建议可以下来后慢慢学,没想到这两条建议实际上给判了死刑。在反问的时候面试官建议我投AML,想想也是很明显的暗示了。

HR反馈说面评都很不错,感觉还是岗位匹配度不够吧,通过反问猜到这个业务的HC应该不会多,可能更希望候选者能够尽可能的匹配,而我又没有训练的经验,因此挂了。其实说来应该还有一个原因,面试官提到目前的业务是一个正式工和一个实习生,面试开始的时候也问了我能不能实习的一些问题,感觉是比较缺马上能干活的人。

#字节跳动##面经##大模型推理##大模型训练#
全部评论
抖音➕电商,双bug有点卷
5 回复 分享
发布于 2024-08-21 23:30 黑龙江
好难
1 回复 分享
发布于 2024-08-22 23:25 黑龙江
老哥方便问下什么学历?
点赞 回复 分享
发布于 2024-09-01 11:21 福建
点赞 回复 分享
发布于 2024-08-21 21:28 四川

相关推荐

论文题目:Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning论文地址:https://arxiv.org/pdf/2505.15154论文详解:https://mp.weixin.qq.com/s/_Rhj8TQFgRFka9xj3xwBpQ核心贡献1、提出了一个基于模型置信度动态切换短答案和长形式推理的 CAR 新框架,实现了准确性和计算效率之间的最佳平衡。2、通过广泛的初步研究,验证了困惑度(PPL)可以作为模型置信度的可靠指标,并通过高斯建模建立了其与答案正确性的关系。3、在 LLM 和 MLLM 上进行的广泛实验表明,CAR 在保持推理准确性的同时,显著减少了推理标记的使用,优于短答案和长形式推理方法。4、CAR 超越了以前的推理标记减少方法。例如,使用 Qwen2.5 时,CAR 在整体准确率上提高了 6.9%,同时减少了 21.4% 的标记消耗。使用 Llama3.1 时,它实现了 5.5% 的准确率提升和 39.0% 的标记使用减少。实现方法1、使用包含短答案和长形式推理答案注释的示例进行训练,通过标准指令调整过程优化交叉熵损失。2、在训练数据集的所有示例上进行短答案推理,计算每个短答案的 PPL 值。 3、假设正确和错误短答案的 PPL 分布遵循高斯分布,通过训练数据估计这些分布的参数。4、对于新的输入示例,首先生成短答案并计算其 PPL 值,然后根据 PPL 值在正确和错误分布下的概率进行决策。如果短答案被认为是正确的,则直接输出;否则,模型将执行长形式推理以获得更准确的答案。
点赞 评论 收藏
分享
1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
1.请简述什么是大模型,以及它与传统模型的主要区别是什么?2.你如何评估大模型的性能?有哪些常用的评估指标?3.请描述一下你如何对大模型进行优化,以提高其性能和效率。4.你是否有过使用或开发大模型的经验?请分享一个具体的案例。5.大模型中的注意力机制是如何工作的?它在大模型中起到了什么作用?6.大模型中的优化算法有哪些常见的选择?它们各有什么优缺点?7.如何处理大模型训练过程中的梯度消失或梯度爆炸问题?8.在大模型设计中,如何权衡模型的复杂度和性能?9.面对大模型训练和推理所需的庞大计算资源,你有什么解决建议?10.请简述你了解的大模型的主要结构特点。11.reward bench上的reward model分哪几类?12. reward model如何训练的,训练目标是什么?13.dp0训练的损失函数和训练目标,dpo如何改进怎么理解大模型安全,包含哪些方面的内容?14.指令跟随能力的评估集有什么,如何评估的?15.阿尔法狗强化学习策略是什么?提升推理能力和指令跟随能力哪个更难, 为什么, 提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方?16.dpo训完了一般输出长度会变化吗? 如何解决这个问题大模型训练过程学习率一般是怎么变化的, 退火阶段学习率如何变化的?17.在开发大模型时,当你面临推理阶段的资源需求时,你如何确保模型的可解释性和公平性?18.谈谈你对Transformer模型的理解,以及它在自然语言处理中的应用。19.请简述Transformer的基本结构和工作原理?20.为什么Transformer使用位置编码(Positional Encoding)?21.如何优化 Transformer 模型的性能?22.Transformer在自然语言处理中有哪些应用?23.transformer里边norm的位置在哪里,norm如何计算的多头自注意力机制的作用是什么?24.注意力机制为什么除以根号dk, 为什么不是dk请解释什么是注意力机制,并举例说明其应用场景。25.注意力机制是如何工作的?请简述其计算过程。26.多头注意力机制是什么?它相比单头注意力有什么优势?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
点赞 评论 收藏
分享
评论
4
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务