算法打工人阿旺 level
获赞
299
粉丝
338
关注
0
看过 TA
2035
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
2025-05-28 20:13
中山大学 算法工程师
1️⃣一面 时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。
查看17道真题和解析
0 点赞 评论 收藏
分享
2025-05-27 22:06
中山大学 算法工程师
✅一面 1.深挖多模态论文介绍transformer架构2.详细说一下Decoder的因果注意力 QKV分别来自哪3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构6.论文用了CoT讲一下论文的CoT是怎么样的7.微调用的LoRA介绍一下LoRA8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数9.知道deepspeed和megatron吗?分别介绍一下10.论文用的deepspeed详细讲了一下三个stage分别是什么✅二面1.深挖多模态和大模型的论文2.Decoder文本生成有哪几种方法3.还知道哪些多模态大模型4.介绍一下ALBEF、BLIP5.BLIP2的结构是什么 两阶段怎么训练的 有哪些损失6.知道PEFT吗 讲一下LoRA7.还有什么微调方法 -> prefix-tuning和P-tuning 两者分别是怎么做的 为了解决什么提出的8.后面就是一些场景题✅三面1.深挖论文2.讲一下multi-head attention 用pytorch手撕一下 要可以实现cross attention的3.讲一下你用的大模型是什么结构 特征是怎么喂给大模型的4.大模型训练为什么不用SFT5.LoRA是什么?有什么好处6.知道RLHF吗?讲一下训练流程7.接下来就是好几个场景题,电商相关的,用大模型解决prompt应该怎么设计,怎么处理prompt的输出,怎么过滤错误格式的输出📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看23道真题和解析
0 点赞 评论 收藏
分享
2025-05-26 21:18
中山大学 算法工程师
1️⃣项目深挖:这个项目解决了什么问题?你的数据集的大小是多大?2️⃣项目深挖:你的数据分块策略是什么,为什么要用这样的策略?3️⃣项目深挖:Embedding 用的什么模型,为什么要用这个模型?4️⃣项目深挖:向量召回后为什么要做rerank,rerank用的什么算法,为什么要用这个?5️⃣项目深挖:微调数据集是什么格式,微调数据有没有做预处理,在什么环境下训练的,用了什么显卡,内存占用情况6️⃣项目深挖:模型出现幻觉时,一般怎么解决的讲一下 Transformer 架构7️⃣encoder-only、decoder-only、encoder-decoder 不同架构在实际应用的使用场景8️⃣llama2 网络架构?使用了哪些注意力机制9️⃣llama2 的位置编码了解吗? 讲讲几种位置编码的异同1️⃣0️⃣基础大模型训练流程及资源使用情况1️⃣1️⃣了解 langchain 吗? 讲讲主要结构和主要组件,处理复杂任务链时有哪些优势1️⃣2️⃣显存不够时,一般怎么解决的,有哪些常见的优化方法1️⃣3️⃣几种主流大模型的 loss了解过吗? 有哪些异同?1️⃣4️⃣了解半精度训练吗? 展开讲讲原理和优点,在实际应用中有哪些挑战。1️⃣5️⃣deepspeed 用过吗? 分布式训练中如何提升效率。1️⃣6️⃣手写实现下分组注意力leetcode 题:合并K个升序链表📳当前大模型岗位更加强调实践,如果没有做过大模型的项目且没有针对性准备过,很难回答上。对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看19道真题和解析
0 点赞 评论 收藏
分享
2025-05-25 20:22
中山大学 算法工程师
1️⃣一面 1.自我介绍和项目介绍2.介绍一下了解的大模型有哪些,这些模型在结构上有什么差异3.说一下大模型常用的位置编码有哪些,各有什么优缺点4.介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了 RLHF 的做法,包括 PPO 算法的原理,以及 DPO 和 PPO 的区别5.大模型的超长上下文是怎么做的,比如说 KIMI6.大模型智能体是怎么工作的,有哪些组件7.场景题:如何训练一个大模型,可以做到精确的提取摘要8.代码:股票的四个题121. 买卖股票的最佳时机122. 买卖股票的最佳时机 II123. 买卖股票的最佳时机 III188. 买卖股票的最佳时机 IV✴️整体来说一面偏基础,没有太多发散性的问题,整个面试一个半小时多2️⃣二面1.自我介绍2.因为之前是做 CV 的,所以面试官问了 CV 和 NLP 的区别和联系,在 Transformer 的大背景下,CV、NLP,包括语音等,能否实现大一统3.训练大模型的时候数据怎么清洗,怎么处理,怎么配比,怎样操作能更容易使模型达到更好的性能4.什么是大模型的幻觉,如何减轻幻觉问题5.大模型的复读问题是怎么产生的,业内一般有什么解决办法6.大模型的工具调用怎么实现7.Agent 有哪几部分构成,了解哪些具体的实现方法8.开放题:之前训练大模型的时候遇到过什么困难,你是怎么解决的9.代码:实现一个 Tokenizer,只能用 PyTorch 基础语法✴️二面相比于一面更加看重综合素质,喜欢考察分析问题解决问题的能力,二面也面试了一个多小时,面试官还是挺专业的。3️⃣三面1.首先过项目,但是问的特别细致,尤其是一个 Agent 的项目,从背景,到动机,再到做法,最后的结果,都问的非常细,大概有半个小时的时间2.开放题:你觉得当前大模型还存在怎样的问题,有什么解决办法吗3.开放题:让你自己设计一个 Agent,会怎么做,为什么这样做4.找工作比较在意的点是什么,除了薪资还有什么5.对文心一言这个产品了解吗,有哪些优点和值得改进的点6.如果给你发 Offer,你到这个团队能做出什么贡献✴️三面整体来说更加综合,不止有一些技术问题,还有职业规划这些问题,更加考察整体的能力。面试官应该是这个团队的大老板,看问题更加系统和全面,整体面下来还是比较有压力的。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
0 点赞 评论 收藏
分享
2025-05-21 20:12
中山大学 算法工程师
✴️算法面试中遇到一道实战场景题:在大模型训练中使用GRPO,训到一半 reward 就很容易突然掉下来的原因?GRPO 出现这个问题,需要详细了解强化学习(RL)的基本迭代架构,即 Actor-Critic 架构。知行互动(AC)架构为什么要有 Critic 呢?这就涉及强化学习的算法稳定性问题。与监督学习(SL)相比,RL 实际上是很难稳定的一类训练机制。💣大致的原因如下:RL 本身是处理动态系统的最优控制问题,而 SL 是处理一个静态优化问题。动,就比静更难处理。加上 RL 的数据非稳态,Env-agent 交互机制的数据采集量少,这使得梯度计算的方差更大,方差一大就容易偏离预期目标,算法就容易跑飞了。主流的强化学习算法是怎么解决这一问题的呢?加上 Critic,使用 State-value function 或者 Action-value function 稳定策略梯度的计算过程。更高级一些的算法是采用 Advantage Function,也就是加上了 Baseline,增加梯度计算的稳定性。这是 AC 算法总是优于 REINFORCE 算法的原因之一。✅然而 GRPO 并没有 Critic 部分,原因比较简单,因为 GRPO 是用于训练大模型(1000 亿级别的参数规模),若是使用“知行互动”架构的话,等于需要存储两个大模型。Critic Network和 Actor Network,对存储要求极高。怎么节约存储呢?把 Critic Network 去掉,替换为在线估计 Advantage function 的算法,采用了“时间(算力)”换“空间(存储)”的做法。这就是 GRPO 的设计思想。与之对比,OpenAI 提出的 PPO 算法(也是 GRPO 的基础算法),它的值函数通常是一个与策略模型大小相当的模型,这带来了显著的内存和计算负担。考虑到 OpenAI 并不缺算力资源,不缺存储资源,即使 PPO 算法设计的如此糟糕,照样用的风生水起。🤳回到最初的话题,从原理上看 GRPO 并非完美,与 PPO 相比实际上处于是半斤八两的水平,算法设计存在“稳定性”缺陷,但是为什么 DeepSeek 还能用的比较好呢?因为 DeepSeek 的数据足够多,多到可以“完美”地避开 GRPO 的稳定性缺陷。每次的 Policy Gradient 计算,只要 Batch 数据足够多,就能有效降低 Policy Gradient 的方差,就能获得比较稳定的迭代。当每次使用的数据批量比较小的时候,它的稳定性缺陷将是致命的。这类规模的策略训练,建议优先选择带有 Critic 的强化学习算法。🌟如果大家想了解高质量的项目辅导以及提升面试能力,欢迎后台咨询。
简历中的项目经历要怎么写
0 点赞 评论 收藏
分享
2025-05-15 21:07
中山大学 算法工程师
查看9道真题和解析
0 点赞 评论 收藏
分享
2025-05-14 22:02
中山大学 算法工程师
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务