蚂蚁实习 AI agent算法二面 1h

攒人品中,祝大家都能拿到满意的Offer!
1.项目拷打
2. 实习拷打
3. 你们选用的训练方法是什么?训练数据具体是怎么构造的?
4. 这里的训练过程,我理解是前面有一段医学语料的预训练,然后再加一段对齐过程,是这样吗?
5. 关于 SFT 阶段,数据具体是怎么生成的?
6. SFT 之后,后面的 DPO 过程又是如何开展的?
7. DPO 需要 Chosen 和 Rejected 至少两组对比数据,这两组数据你们是怎么得到的?
8. 我们现在这边可能对于医疗业务关系比较远,问一下更加基础的知识。既然谈到 DPO,谈一下 DPO 以及后续其他偏好学习算法的区别,以及各自的优劣。
9. 那么 GRPO 算法呢?
10. DPO 算法有哪些缺点?
11. 谈谈强化学习中 On-policy 和 Off-policy 的区别,你是怎么理解的?
12. 看你不仅做训练,还负责基础设施 Infra 的搭建。训练基础设施也是归你亲自搭吗?
13. 当时是在哪个项目里面参与 Infra 工作的
14. 你刚才提到了 Megatron,你们试过 PyTorch 原生的 FSDP 吗?
15. 既然试过 FSDP,为什么最终还是选用了 Megatron?,你们当时的选型考量是什么?
16. 既然提到 FSDP 和 DeepSpeed ZeRO 的区别,FSDP 实现了 ZeRO 的哪几个阶段?ZeRO-1, 2 还是 3?
17. 探讨一个现实的业务问题:我们核心业务是对话类 Agent 产品。经典架构是前端设有一个意图识别与路由环节,将客户请求分发到不同的子 Agent,由于子 Agent 功能实现完全不同,不能混在一起,所以路由非常关键,一旦路由错误就无法满意回答。另外,作为全链路的必经点,路由必须足够快。我们考虑在最前端用一个相对较小(如 7B 或 13B)的模型,通过后训练使其掌握特定领域知识,实现低延迟的路由。如果让你做这个模型,你会怎么去做?
全部评论

相关推荐

一、项目深挖从实习经历里挑一个最能体现技术能力、最有挑战的项目详细聊聊。这个功能整体研发大概多少人参与?在这个项目里压力最大、最棘手的事情是什么?你做了哪些重要的设计决策,这些决策带来了什么效果?更新数据库状态和推送不是原子操作,你当时是怎么权衡的?想保证这两个异步操作绝对一致性,有什么办法?延伸场景:先写数据库 A 再写数据库 B,要求同时成功 / 同时失败,怎么设计?项目用户量、QPS 大概多少?有出现客户投诉吗?功能上线后怎么验证、保证系统稳定?出现异常需要线上应急吗?你设置了哪些告警指标?从现在视角看,你会设置哪些指标观测系统稳定性?二、Full GC 问题排查介绍下当时遇到的 Full GC 问题,以及完整排查过程。三、AI & Web Coding 相关如果用 Web Coding 写这个系统,你会怎么设计提示词?AI 生成代码不可控,你怎么约束、确保符合预期?有没有试过用 Web Coding 写项目,过程中最大问题是什么?业界怎么解决 AI 思考慢、反复出错的问题?有没有考虑用 AI 做测试用例提效,做 TDD 开发?如果设计一个 AI 研发 + 测试的协作 team,怎么设计?研发 Agent 和测试 Agent 之间怎么交互,避免越改越偏?大模型上下文有限,Claude 类产品怎么保证长代码迭代不丢失注意力?四、职业规划 & 行业选择工作之后的职业规划是怎样的?想从事什么行业 / 业务场景,为什么?了解蚂蚁国际是做什么的吗,为什么投这个岗位?五、算法 & 限流(核心编程题)手撕实现滑动窗口限流(1 分钟级别)。单机限流会有什么问题?多线程场景下,单机限流是否还有效?扩展为集群全局限流,怎么调整逻辑?用 Redis 做全局限流,会选用哪种方案?
查看30道真题和解析
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务