蚂蚁大模型Agent算法二面-55min

1.你的 Agent 系统Prompt 是怎么设计和迭代的?有没有做过 Prompt 自动优化?当用户提出不完整的请求时,如何补全用户意图的?
2.构建 Agent 的时候,遇到过哪些瓶颈?LangChain 的 memory 默认机制在多
3.用户并发中怎么做隔离?你是如何保证线程安全的?
4.微调 Llama2 你是怎么选择训练样本的?清洗逻辑是什么?你有没有观察到哪些训练样本质量问题对模型行为有很大影响?举例说明。
5.DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工?
6.你说你服务部署在 vLLM 上,为何选择它?KV-cache 如何帮助推理加速?你自己做过哪些优化?
7.假如需要支持 Streaming 输出,但当前服务延迟又超标,你会怎么折中设计?
8.多轮对话上下文状态管理是如何做的?如何在高并发场景下保证一致性?
9.你做的 Agent 使用了多少个外部工具,在调用链条上如何保障故障容错和超时机制?
10.有没有做过工具调用失败后的feedback策略设计?
11.训练过程中数据来自用户行为日志,你是如何从这些数据中抽取训练对话的?有没有做过归一化或事件抽象?
12.有没有了解过带有时间窗口/偏移限制的对话系统?模型怎么“理解时间”?
13.你觉得 Agent 哪些模块最容易在真实业务中出问题?你会如何监控和定位的?
全部评论

相关推荐

攒人品中,祝大家都能拿到满意的Offer!1.项目拷打2. 实习拷打3. 你们选用的训练方法是什么?训练数据具体是怎么构造的?4. 这里的训练过程,我理解是前面有一段医学语料的预训练,然后再加一段对齐过程,是这样吗?5. 关于 SFT 阶段,数据具体是怎么生成的?6. SFT 之后,后面的 DPO 过程又是如何开展的?7. DPO 需要 Chosen 和 Rejected 至少两组对比数据,这两组数据你们是怎么得到的?8. 我们现在这边可能对于医疗业务关系比较远,问一下更加基础的知识。既然谈到 DPO,谈一下 DPO 以及后续其他偏好学习算法的区别,以及各自的优劣。9. 那么 GRPO 算法呢?10. DPO 算法有哪些缺点?11. 谈谈强化学习中 On-policy 和 Off-policy 的区别,你是怎么理解的?12. 看你不仅做训练,还负责基础设施 Infra 的搭建。训练基础设施也是归你亲自搭吗?13. 当时是在哪个项目里面参与 Infra 工作的14. 你刚才提到了 Megatron,你们试过 PyTorch 原生的 FSDP 吗?15. 既然试过 FSDP,为什么最终还是选用了 Megatron?,你们当时的选型考量是什么?16. 既然提到 FSDP 和 DeepSpeed ZeRO 的区别,FSDP 实现了 ZeRO 的哪几个阶段?ZeRO-1, 2 还是 3?17. 探讨一个现实的业务问题:我们核心业务是对话类 Agent 产品。经典架构是前端设有一个意图识别与路由环节,将客户请求分发到不同的子 Agent,由于子 Agent 功能实现完全不同,不能混在一起,所以路由非常关键,一旦路由错误就无法满意回答。另外,作为全链路的必经点,路由必须足够快。我们考虑在最前端用一个相对较小(如 7B 或 13B)的模型,通过后训练使其掌握特定领域知识,实现低延迟的路由。如果让你做这个模型,你会怎么去做?
查看15道真题和解析
点赞 评论 收藏
分享
评论
3
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务