core_29 - 个人主页动态 - 牛客网

昨天 15:35

门头沟学院算法工程师

百度大模型算法日常实习一面 80min

给我面没招了，发点面经攒攒人品～1. 实习拷打2. 选了一个大模型项目进行深挖3. 这个项目里你真正主导的部分是什么？4. 你这个项目到底解决了什么业务问题？原来人工是怎么做的，痛点在哪？5. 你这个 Agent 是问答型、决策型，还是执行型？边界是什么？6. 从用户输入到最终输出，你这套系统的真实链路是什么？7. 哪些环节必须用大模型，哪些环节不用大模型也能做？8. 如果不用 Agent，只用规则、检索、模板 SQL，能做到几成效果？为什么还要上 Agent？9. 你的知识源具体是什么？API 文档、日志、DDL、Wiki 这几类数据里，最难处理的是哪类？10. 你们知识入库前做了哪些预处理？这些步骤分别在解决什么问题？11. 你为什么把 chunk 设成 512？和 128、1024 相比，各自的 trade-off 是什么？12. 你怎么区分“模型上下文长度”和“知识切片长度”这两个概念？13. 如果 top-k 已经召回了正确证据，但模型还是答错了，你怎么判断问题是在检索、排序，还是生成？14. 如果检索结果本身互相冲突，或者证据不充分，你怎么约束模型？15. 你为什么选 QLoRA，而不是全量微调？16. 你这里的 SFT，本质上是在教模型什么？是教知识、风格，还是行为边界？17. 你做 DPO 的时候，chosen 和 rejected 是怎么定义的？18. 如果 chosen 和 rejected 差异太小，会发生什么？19. 你怎么证明 rejected 真的是有效负样本，而不是误杀？20. 你这个 LLM-as-a-Judge 是怎么设计的？rubric 里哪些维度是硬门槛，哪些只是加分项？21. 为什么要做一致性检测 / swap consistency？它防的是哪类偏差？22. 你怎么做 ablation，证明提升真的是 RAG、SFT、DPO 或 Judge 带来的，而不是别的变量？23. 手撕代码  动态规划24.开放题把DPO 跟Judge 思路迁移到一个视频二创场景：如果目标是让模型扮演某个角色，比如孙悟空，你怎么构造 chosen 和 rejected？视频质量和音频质量如果也跟进的话优先级怎么定？

查看22道真题和解析

0 点赞评论收藏

分享

04-12 05:30

门头沟学院算法工程师

27实习商汤大模型算法二面攒人品中

发一下问题给大家参考，攒攒人品！1.项目拷打2.dpo和ppo的区别，dpo有哪些改进，他们的目标函数。3.ppo训练涉及哪些模型？哪些冻结？输出是什么？value、reward、advantage之间关系；clip作用。4.grpo中正确且短，正确且长，错误且长，错误且短四种情况模型倾向排序，为什么？5.grpo目标函数；grpo改进方法了解哪些；dapo核心改进。6.moe和dense的区别，moe会带来哪些问题？7.rl训练推理不一致有了解过吗？哪些方面可能会产生训推不一致？reward怎么设计的？8.fsdp，zero不同阶段，Megatron。9.预训练，sft，rl关系？sft只是做格式对齐吗？10.pre norm和post norm的区别？为什么偏向pre？11.temperature如何控制输出的？12.手撕：mha和池化二选一；2*N地板覆盖

查看12道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务