长征offer路 - 个人主页动态 - 牛客网

2025-12-28 02:25

浙江大学算法工程师

快手多模态大模型算法实习一面

1.项目介绍2.讲一下在百度实习期间做的主要工作。3.压缩专家机制是如何实现的？4.用的训练数据集规模分别是多少？5.为什么选择用SFT训练，而不是用RL训练？6.介绍一下 DPO, PPO, GRPO的原理和区别7.PPO的损失是token级别还是sequence级别的？8.PPO中的Critic模型是如何计算优势的？9.讲一下LoRA微调技术原理10.LoRA微调是如何减少训练参数的？11.LoRA技术有哪些优势？12.算法题手撕 三数之和（撕出来了

0 点赞评论收藏

分享

2025-12-24 10:10

浙江大学算法工程师

日常实习-京东算法二面

1.实习介绍2.论文介绍3.mplug介绍4.few-shot和lora的区别5.模态怎么对齐6.QKV计算7.怎么分布式计算的8.微调的loss函数怎么选择9.手撕：输出数组里和为6的数pair

查看9道真题和解析

0 点赞评论收藏

分享

2025-12-18 17:02

浙江大学算法工程师

卡斯柯面试难吗

软开岗面试问的难吗，会不会问很多八股呢

0 点赞评论收藏

分享

2025-12-18 10:15

浙江大学算法工程师

淘天大模型算法一面-秋招面经

1. 实习介绍2. 挑一个你最熟悉的大模型项目，讲讲它的目标，你主要负责什么，以及你觉得最有意思的技术点。3. 在Transformer的Decoder里，我们为什么需要用Mask把未来的信息“遮住”？从代码实现上讲，这个Mask具体是怎么作用在Self-Attention分数上的？4. 关于LayerNorm放在残差连接的“前面”还是“后面”（Pre-LN vs Post-LN），社区里有很多讨论。这两种设计选择，主要会影响训练过程的哪些方面？你更倾向于哪一种，为什么？5. 我们要在线上部署一个大模型提供服务，推理速度和吞吐量是个大问题。像vLLM这样的工具，它主要是通过什么核心思想（比如PagedAttention）来解决KV Cache的内存问题，从而提升推理效率的？6. 我们有一个基础模型，但它不太会“听人话”。如果想把它训练成一个能很好遵循指令的聊天助手，通常有几步？能简单说说SFT（监督微调）和基于人类反馈的对齐（比如PPO/DPO）分别是在解决什么问题吗？7. 假设我们有一个效果很好的70B大模型，但因为太大太慢，没法直接上线。现在需要你把它“变小变快”。你会考虑用哪些方法（比如剪枝、量化）？各自有什么优缺点？8. 相比于让大模型直接回答问题，现在很流行的RAG（检索增强生成）方案，它最大的好处是什么？主要解决了什么痛点？9. 我们的RAG系统上线后，发现有时候还是会“胡说八道”，或者答非所问。如果让你去排查，你会从哪些方面入手？（比如是检索模块没找对，还是生成模块没理解好？）10. 核心代码模式算法题：二叉树的中序遍历11. 反问

0 点赞评论收藏

分享

2025-12-18 07:20

浙江大学算法工程师

26校招腾讯大模型算法一面45min

1．自我介绍，过实习，讲论文，根据表述实时跟进询问交流2．讲一下大模型训练和推理的流程， SFT 和 RLHF 的作用分别是什么3．为什么探索 MoE 架构， MoE 相比 Dense 有什么好处4．有没有全量微调过5．推导一下神经网络反向传播的过程6．在 RLHF 中，目前主流的强化学习算法有哪几个，写一下损失函数的表达式7．一道排列组合的概率题8．平常有用过 RLHF 吗，简单介绍一下9. 开放题：对目前大模型的发展有什么看法10.代码：多头自注意力

0 点赞评论收藏

分享

2025-12-18 02:20

浙江大学算法工程师

美团校招大模型算法二面

1、介绍自己的中厂实习2、一面的部分实习问题这里也问了。3、有没有试过外挂数据库来解决线上业务数据分布更新较快的问题，4、模型选型问题，为什么选qwen3-8b，如何估算模型开销。5、最多做过几卡的模型训练?对deepspeed和Megatron有多少了解?6、接触过哪些推理加速的方法。(vllm的page-attention, kv cache, prefix cachemla，flash-attention直接安排一套)7、一个他们组里面的一个具体场景题。8、手撕k个一组反转链表，并要求最后不足k个的也反转。

0 点赞评论收藏

分享

2025-12-12 08:15

浙江大学算法工程师

字节算法26校招一面

1.项目相关2.mmoe的结构是怎么样的？3.输入特征构建4.召回阶段了解哪些深度模型？5.粗排阶段是必要的吗？6.share bottom 和 mmoe的差别？7.DIN是什么结构？除了DIN，还有哪些方式？SIM是怎么做的？8.emb层和mlp层什么区别？9.双塔模型正负样本怎么选取？选取的规则10.有没有微调过大模型？微调大模型的方式有哪些？11.LN和BN的区别？12.transformer吟唱13.大模型吟唱14.开放性问题推荐与大模型的结合手撕1.注意力机制2.两种损失函数3.搜索旋转排序数组

0 点赞评论收藏

分享

2025-12-12 01:15

浙江大学算法工程师

26秋招美团搜推算法一面凉经

1.讲讲PLE的结构2.MMoE的embedding层怎么设计的?3.有没有多跳的任务?讲讲ESMM(我提到了ESMM)4.模型里面有没有加上序列数据?讲讲DIN?5.DIN和attention有什么区别?6.讲讲并联双塔模型怎么实现的?7.展开讲讲实习的任务是做什么8.inbatch负采样会样本偏差，怎么纠偏?手撕:输入前k个高频词，次数一样的按照字典序返回输入:["i" ,"love" ,"meituan" "i" "love" "coding"]输出:["i","love" "coding"]map存，再排序.O(nlogn)问有没有其他方法:最小堆，再排序O(nlogk)

0 点赞评论收藏

分享

2025-12-11 21:15

浙江大学算法工程师

美团大模型应用算法秋招一面

1.八股：Transformer中哪个模块的计算量最大？如何优化2.八股：Transformer 的位置编码方式有哪些？RoPE 的核心思想是什么？3.八股：在大模型推理阶段，KV Cache 的作用是什么？4.项目：在项目中你用过 DPO 吗？和 PPO 相比，它有什么优缺点？5.项目：如何在有限算力下做大模型微调？常用方法有哪些？6.项目：训练一个7b模型要占用多少显存，不同zero阶段能节省多少显存7.项目：如果让 agent 调用搜索引擎，如何避免无关结果影响回答？8.项目：你在项目里有没有做过 RAG 里的“召回-过滤-生成”三段式 pipeline？能不能细讲一下？9.代码题：lc141 环形链表

0 点赞评论收藏

分享

2025-12-10 14:42

浙江大学算法工程师

字节后端开奖

bg985硕，后端岗位，base北京开了30*15，比美团给的多，这个是什么档位？

程序员花海：小sp

校招薪资来揭秘

0 点赞评论收藏

分享

2025-12-10 11:20

浙江大学算法工程师

小红书商业广告算法校招一面

1.TDerror更新公式2.DuelingDQN中Q值的计算公式3.DuelingDQN对比DQN优势在哪里4.DQN还有哪些系列、分别改进点是什么5.介绍一下TD36.离线RL训练如何切换到在线训练？7.DCN交叉是怎么做的，DCNv2对DCN的改进是什么，带来了怎样的提升？8.还有哪些交叉模型？9.为什么离线AUC上涨的比较多，但是ADVVPU提升不明显？手撕1.如何用randint(1,6)生成randint(1,8)2.如何用randint(1,8)生成randint(1,6)

查看11道真题和解析

0 点赞评论收藏

分享

2025-12-09 20:10

浙江大学算法工程师

淘天校招大模型算法二面

1.实习介绍和过项目2.Qwen- VL 的三个训练流程分别是什么，有什么作用介绍一下 CLIP3.后来有哪些比较经典的基于 Transformer 的语言模型， Qwen 相比于原始 Transformer 有哪些结构上的改动4.了解 RLHF 吗， DPO 和 PPO 有什么区别， Loss 是什么样的，各自的优缺点是什么5.了解哪些多模态大模型，简要介绍几个6.了解 LoRA 吗， LoRA 微调的原理是什么7.对PPO DPO GRPO计算逻辑的理解8.代码：实现多头自注意力

查看7道真题和解析

0 点赞评论收藏

分享

2025-12-09 10:20

浙江大学算法工程师

26校招小红书NLP算法一面

1. 怎么解决LLM幻觉问题2. DPO 训练的过程是怎么样的，正负概率怎么算3. MOE架构原理4. RAG如果有噪声怎么办5. 最新强化学习技术了解什么6. Deepseek GRPO，讲讲原理和之后的改进7. 召回索引怎么优化8. 意图识别LLM输出格式不好怎么优化9.代码：三数之和10.总结：面试官很看重项目部分

查看9道真题和解析

0 点赞评论收藏

分享

2025-12-07 02:20

浙江大学算法工程师

26校招高德推荐算法二面

1. 实习介绍2. 介绍一下项目3. 项目的细节拷打，一直追着问，问还有没有更好的模型4. SID的训练损失函数5. 损失函数可导吗6. SID有什么缺陷呢？怎么解决7. 手撕1：爬楼梯8. 手撕2:岛屿数量

查看7道真题和解析

0 点赞评论收藏

分享

2025-12-06 16:35

浙江大学算法工程师

26秋招小红书NLP大模型算法一面

1.介绍transformer的位置编码，介绍RoPE；2.transformer的normalization，为什么用layernorm不用其他的；介绍RMSnorm3.encoder中的self-attention和decoder中的self-attention有什么区别4.DeepSeek R1有看过吗? 介绍一下5.R1的 MLA是如何节约 KV cache的?6.优化算法知道哪些?讲-下AdamW7.显存占用和哪些因素有关? 算一下一个7B的模型推理需要多少显存，训练呢?8.遇到过灾难性遗忘吗?怎么缓解的9.介绍lora，为什么lora是有效的（只需要训练更少的参数而不是训练全参数）10.代码题：lc300 最长递增子序列

查看10道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务