26校招商汤大模型算法一面

1、实习介绍,随后围绕项目问八股
2、对qwen-coder大模型的了解
3、Lora训练的原理,调过哪些参数,其含义,怎么设置的
4、训练过程中调过哪些参数,怎么设置的,loss曲线在训练过程中如果突然上升,一定是坏的吗?如何区分是训练参数不对和学到新东西导致的loss上升?
5、大模型训练的流程有哪些?文本是如何tokens化的?tokenizer的原理是什么?
6、RAG的流程?在打比赛时,有哪些提高的点?RAG中召回算法的原理?为什么还需要重排?如何提高RAG召回的效果,如何对向量化模型进行微调?
7、代码题1:a = [1],b=[a,a],b[0]=[0],随后b[1]=?如果不想改a的值怎么做?
8、代码题2:给一个数组,求划分方式,使得左半部分的最大值-右半部分的最大值 最大。
全部评论
俩个手撕啊
点赞 回复 分享
发布于 2025-12-25 23:33 北京
商汤大公司,之前就听过
点赞 回复 分享
发布于 2025-12-25 19:21 陕西
感觉你这面得好晚啊
点赞 回复 分享
发布于 2025-12-25 16:07 陕西

相关推荐

攒人品中,祝大家都能拿到满意的Offer!1.项目拷打2. 实习拷打3. 你们选用的训练方法是什么?训练数据具体是怎么构造的?4. 这里的训练过程,我理解是前面有一段医学语料的预训练,然后再加一段对齐过程,是这样吗?5. 关于 SFT 阶段,数据具体是怎么生成的?6. SFT 之后,后面的 DPO 过程又是如何开展的?7. DPO 需要 Chosen 和 Rejected 至少两组对比数据,这两组数据你们是怎么得到的?8. 我们现在这边可能对于医疗业务关系比较远,问一下更加基础的知识。既然谈到 DPO,谈一下 DPO 以及后续其他偏好学习算法的区别,以及各自的优劣。9. 那么 GRPO 算法呢?10. DPO 算法有哪些缺点?11. 谈谈强化学习中 On-policy 和 Off-policy 的区别,你是怎么理解的?12. 看你不仅做训练,还负责基础设施 Infra 的搭建。训练基础设施也是归你亲自搭吗?13. 当时是在哪个项目里面参与 Infra 工作的14. 你刚才提到了 Megatron,你们试过 PyTorch 原生的 FSDP 吗?15. 既然试过 FSDP,为什么最终还是选用了 Megatron?,你们当时的选型考量是什么?16. 既然提到 FSDP 和 DeepSpeed ZeRO 的区别,FSDP 实现了 ZeRO 的哪几个阶段?ZeRO-1, 2 还是 3?17. 探讨一个现实的业务问题:我们核心业务是对话类 Agent 产品。经典架构是前端设有一个意图识别与路由环节,将客户请求分发到不同的子 Agent,由于子 Agent 功能实现完全不同,不能混在一起,所以路由非常关键,一旦路由错误就无法满意回答。另外,作为全链路的必经点,路由必须足够快。我们考虑在最前端用一个相对较小(如 7B 或 13B)的模型,通过后训练使其掌握特定领域知识,实现低延迟的路由。如果让你做这个模型,你会怎么去做?
查看15道真题和解析
点赞 评论 收藏
分享
评论
2
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务