旷视科技 - 二面凉经

感觉是对于大模型推理的batch问题上回答的面试官不是很满意,反正没有后续联系了
1. 自我介绍
2. 直接聊项目
3. 聊vllm的特性
4. 转到聊为什么batch能提高吞吐量,我的回答他不是很满意
5. 做了一道合并有序链表,然后围绕题目突然展开聊操做系统底层。

真难啊找个实习
全部评论
请问投递的链接有吗?我看官网上没有
点赞 回复 分享
发布于 03-08 06:44 美国

相关推荐

论文题目:Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning论文地址:https://arxiv.org/pdf/2505.15154论文详解:https://mp.weixin.qq.com/s/_Rhj8TQFgRFka9xj3xwBpQ核心贡献1、提出了一个基于模型置信度动态切换短答案和长形式推理的 CAR 新框架,实现了准确性和计算效率之间的最佳平衡。2、通过广泛的初步研究,验证了困惑度(PPL)可以作为模型置信度的可靠指标,并通过高斯建模建立了其与答案正确性的关系。3、在 LLM 和 MLLM 上进行的广泛实验表明,CAR 在保持推理准确性的同时,显著减少了推理标记的使用,优于短答案和长形式推理方法。4、CAR 超越了以前的推理标记减少方法。例如,使用 Qwen2.5 时,CAR 在整体准确率上提高了 6.9%,同时减少了 21.4% 的标记消耗。使用 Llama3.1 时,它实现了 5.5% 的准确率提升和 39.0% 的标记使用减少。实现方法1、使用包含短答案和长形式推理答案注释的示例进行训练,通过标准指令调整过程优化交叉熵损失。2、在训练数据集的所有示例上进行短答案推理,计算每个短答案的 PPL 值。 3、假设正确和错误短答案的 PPL 分布遵循高斯分布,通过训练数据估计这些分布的参数。4、对于新的输入示例,首先生成短答案并计算其 PPL 值,然后根据 PPL 值在正确和错误分布下的概率进行决策。如果短答案被认为是正确的,则直接输出;否则,模型将执行长形式推理以获得更准确的答案。
点赞 评论 收藏
分享
1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务