safe_86 - 个人主页动态 - 牛客网

05-03 06:25

门头沟学院算法工程师

阿里暑期agent开发一面分享

给我面没招了，发点面经攒攒人品～1.拷打自己的论文项目，会问很多细节的问题2.八股如下：1.RL训练中一般看什么参数2.reward hacking是什么，一般在参数中怎么体现3.PPO GRPO DPO 优势劣势 适用场景4.DPO 需不需要加KL5.rand7()怎么变成rand10() 拒绝采样

查看6道真题和解析

0 点赞评论收藏

分享

04-25 18:10

门头沟学院算法工程师

美团大模型算法实习一面分享

发点面经攒攒人品～1. 实习拷打2.过程监督的信号具体是怎么设计的。过程监督的信号还能应用在哪些地方。3. 如何保证强化学习的训练效率，grpo训练过程中出现了全0或者全1怎么解决。4. 混合推理是怎么做的（OpenAI GPT-5），大模型在增强推理的时候如何保证通用数据不遗忘。5. 现在大模型还有那些能力值得增强。6. 介绍第二篇论文7. 介绍第一段实习，介绍落地的场景。8. 写题，非hot100的模拟

查看9道真题和解析

0 点赞评论收藏

分享

04-20 22:45

门头沟学院算法工程师

vivo大模型多模态算法面经分享

发一下问题给大家参考，攒攒人品！1. 实习拷打2. 你做的 Agent 系统采用的是什么框架？3. 系统的整体工作流 / 执行范式是如何设计的？4. 多路召回后的粗排策略是什么？5. 二阶段重排序（Rerank）是如何实现的？6. 多模态特征（图文）是如何融合的？7. 项目中使用了多大参数的模型？为什么这样选择？8. SFT 的训练目标是什么？数据集如何构建？9. VQA 数据的 Query 和 Answer 是如何生成的？10. 工具调用的监督数据（GT）是如何获取的？11. 数据生成后有没有做校验与过滤？怎么做的？12. LoRA 微调的超参数（rank）如何选择？13. 是否尝试过多种微调 / 强化学习方法？为什么选当前方案？14. 奖励函数（Reward）是如何设计的？15. 强化学习是优化端到端结果，还是优化单步决策？16. 有没有遇到奖励作弊（Reward Hacking）？如何解决？17. GRPO 的重要性采样的数学意义是什么？18. KL 散度系数等超参数是如何调优的？19. 多轮任务是否考虑端到端训练？如何设计？20. 模型 / 系统效果如何评估？指标怎么计算？21. 复杂查询 / 多意图查询如何做准确率评估？22. 系统推理延迟（首 Token 延迟）大概多少？23. 影响系统性能的主要因素有哪些？24. 请写出 Attention 计算公式，并解释原理。25. QK^T 为什么要除以根号 dk？

查看24道真题和解析

0 点赞评论收藏

分享

04-14 14:20

门头沟学院算法工程师

日常实习-TapTap推荐算法一面人才库

被挂了，希望发出来对大家有帮助！项目拷打1.对业内常见的多模态语义编码技术有了解吗2.了解RAG技术吗3.如何看待端到端的搜索推荐这个方向，与传统的方法有什么区别其他问题:1.是否做过大模型的SFT2.你觉得你的哪份经历让你能胜任这份工作手撕:二叉树的最近公共祖先

查看6道真题和解析

0 点赞评论收藏

分享

04-11 10:45

门头沟学院算法工程师

美图 AIGC算法实习一面分享

发一下问题给大家参考，攒攒人品！有面试过同岗的朋友欢迎评论区交流实习+项目拷打1. 解决过拟合的方法有哪些2. 你知道哪些归一化方法3. 介绍一下自注意力的计算方法4. 介绍一下LoRA的原理5. 介绍一下ControlNet的原理

查看5道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务