04-13 03:15 门头沟学院算法工程师

关注

蚂蚁实习 AI agent算法二面 1h

攒人品中，祝大家都能拿到满意的Offer！
1.项目拷打
2. 实习拷打
3. 你们选用的训练方法是什么？训练数据具体是怎么构造的？
4. 这里的训练过程，我理解是前面有一段医学语料的预训练，然后再加一段对齐过程，是这样吗？
5. 关于 SFT 阶段，数据具体是怎么生成的？
6. SFT 之后，后面的 DPO 过程又是如何开展的？
7. DPO 需要 Chosen 和 Rejected 至少两组对比数据，这两组数据你们是怎么得到的？
8. 我们现在这边可能对于医疗业务关系比较远，问一下更加基础的知识。既然谈到 DPO，谈一下 DPO 以及后续其他偏好学习算法的区别，以及各自的优劣。
9. 那么 GRPO 算法呢？
10. DPO 算法有哪些缺点？
11. 谈谈强化学习中 On-policy 和 Off-policy 的区别，你是怎么理解的？
12. 看你不仅做训练，还负责基础设施 Infra 的搭建。训练基础设施也是归你亲自搭吗？
13. 当时是在哪个项目里面参与 Infra 工作的
14. 你刚才提到了 Megatron，你们试过 PyTorch 原生的 FSDP 吗？
15. 既然试过 FSDP，为什么最终还是选用了 Megatron？，你们当时的选型考量是什么？
16. 既然提到 FSDP 和 DeepSpeed ZeRO 的区别，FSDP 实现了 ZeRO 的哪几个阶段？ZeRO-1, 2 还是 3？
17. 探讨一个现实的业务问题：我们核心业务是对话类 Agent 产品。经典架构是前端设有一个意图识别与路由环节，将客户请求分发到不同的子 Agent，由于子 Agent 功能实现完全不同，不能混在一起，所以路由非常关键，一旦路由错误就无法满意回答。另外，作为全链路的必经点，路由必须足够快。我们考虑在最前端用一个相对较小（如 7B 或 13B）的模型，通过后训练使其掌握特定领域知识，实现低延迟的路由。如果让你做这个模型，你会怎么去做？

全部评论

推荐最新楼层

03-29 00:13

广西大学算法工程师

阿里 AI Agent 开发二面

1. 大语言模型的 RLHF 训练流程是什么，它存在哪些潜在风险RLHF 一般分三步。第一步是 SFT，用高质量指令数据把基座模型调成能听懂任务、按格式回答的模型。第二步是训练奖励模型，把人工偏好数据整理成 chosen 和 rejected 形式，让奖励模型学会判断两个回答哪个更好。第三步是强化学习优化，最经典的是 PPO，让当前策略在奖励更高的方向上更新，同时用 KL 约束避免模型偏离初始策略太远。它的风险主要在三个地方。第一，奖励模型可能学偏，模型最后学到的是“讨好奖励模型”而不是真正更有帮助。第二，强化学习阶段如果约束不够，模型容易出现 reward hacking，看起来分数高，但真...

AI-Agent面试实战...

点赞评论收藏

分享

04-11 19:15

门头沟学院算法工程师

蚂蚁Agent算法实习二面攒人品

发点面经攒攒人品～1.实习拷打2.Agent范式了解哪些？3.项目评测是怎么反过来影响训练的？4.选型怎么选的？5.项目上线了吗？6.项目的输出具体是什么？7.项目的评价指标是什么？

查看6道真题和解析

点赞评论收藏

分享

04-07 00:22

广西大学算法工程师

蚂蚁 AI应用开发二面

1. 你之前接触过的中间件里，挑一个最熟的讲讲它的核心设计，重点说为什么要这样设计如果讲消息队列，比较容易拉开差距的不是背概念，而是把吞吐、可靠性、顺序性和扩展性之间的取舍讲清楚。比如一套高吞吐 MQ 通常会采用顺序写磁盘、分区模型、批量发送、批量拉取和零拷贝来提升吞吐，但这么设计以后，消费顺序只能在单分区内严格保证，跨分区顺序就必须交给业务自己兜底。再比如可靠性不是简单开个副本就完事了，生产端要考虑重试和幂等，Broker 要考虑刷盘和副本同步策略，消费端还要考虑重复消费和位点提交时机。真正难的是理解这些机制不是孤立存在的，而是围绕吞吐、延迟、可恢复性一起做平衡。2. 软件工程里的设计原则你...

查看11道真题和解析

点赞评论收藏

分享

04-01 15:43

鹤岗师范高等专科学校 Java

蚂蚁国际 antom 二面

一、项目深挖从实习经历里挑一个最能体现技术能力、最有挑战的项目详细聊聊。这个功能整体研发大概多少人参与？在这个项目里压力最大、最棘手的事情是什么？你做了哪些重要的设计决策，这些决策带来了什么效果？更新数据库状态和推送不是原子操作，你当时是怎么权衡的？想保证这两个异步操作绝对一致性，有什么办法？延伸场景：先写数据库 A 再写数据库 B，要求同时成功 / 同时失败，怎么设计？项目用户量、QPS 大概多少？有出现客户投诉吗？功能上线后怎么验证、保证系统稳定？出现异常需要线上应急吗？你设置了哪些告警指标？从现在视角看，你会设置哪些指标观测系统稳定性？二、Full GC 问题排查介绍下当时遇到的 Full GC 问题，以及完整排查过程。三、AI & Web Coding 相关如果用 Web Coding 写这个系统，你会怎么设计提示词？AI 生成代码不可控，你怎么约束、确保符合预期？有没有试过用 Web Coding 写项目，过程中最大问题是什么？业界怎么解决 AI 思考慢、反复出错的问题？有没有考虑用 AI 做测试用例提效，做 TDD 开发？如果设计一个 AI 研发 + 测试的协作 team，怎么设计？研发 Agent 和测试 Agent 之间怎么交互，避免越改越偏？大模型上下文有限，Claude 类产品怎么保证长代码迭代不丢失注意力？四、职业规划 & 行业选择工作之后的职业规划是怎样的？想从事什么行业 / 业务场景，为什么？了解蚂蚁国际是做什么的吗，为什么投这个岗位？五、算法 & 限流（核心编程题）手撕实现滑动窗口限流（1 分钟级别）。单机限流会有什么问题？多线程场景下，单机限流是否还有效？扩展为集群全局限流，怎么调整逻辑？用 Redis 做全局限流，会选用哪种方案？

查看30道真题和解析

点赞评论收藏

分享

04-12 12:38

广西大学算法工程师

小红书 AI Agent开发一面

1. 自我介绍2. 介绍你写的这个项目3. 为什么要做多 Agent，而不是把所有能力都塞进一个 Agent多 Agent 的核心价值不是“看起来更高级”，而是把复杂任务里的角色分工显式化。单 Agent 在任务很长、工具很多、约束很多的时候，容易把规划、检索、判断和执行混在一起，导致上下文污染、错误放大、调试困难。多 Agent 可以把流程拆成规划 Agent、检索 Agent、执行 Agent、审查 Agent，每个 Agent 只负责一类清晰目标，行为边界更稳定。但多 Agent 也不是默认更好。它会引入额外通信成本、状态同步复杂度和错误传播路径。真正适合多 Agent 的场景，一般满足...

AI-Agent面试实战...

点赞评论收藏

分享

评论

点赞

3

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职进度条 #

1252142次浏览 9267人参与

# 第一份工作应该选择高薪还是大平台 #

221252次浏览 1047人参与

# 华泰星战营，提前锁定校招offer #

5785次浏览 294人参与

# 你简历上最心虚的一句话 #

3614次浏览 26人参与

# 考公VS就业，你怎么选？ #

100333次浏览 525人参与

# 哪些公司对双非友好 #

230563次浏览 1238人参与

# 卷__卷不过你们，只能卷__了 #

60356次浏览 758人参与

# 校招第一份工作你干了多久？ #

150441次浏览 631人参与

# 商战，最累的是我们 #

31788次浏览 99人参与

# 国企/银行/研究所公司爆料 #

209595次浏览 920人参与

# 荣耀求职进展汇总 #

1176709次浏览 5674人参与

# 比特大陆工作体验 #

18824次浏览 89人参与

# 找工作的破防时刻 #

289857次浏览 2066人参与

# 小红书求职进展汇总 #

238705次浏览 1397人参与

# 面试等了一周没回复，还有戏吗 #

240104次浏览 1842人参与

# 哪些公司在招寒假实习？ #

93836次浏览 765人参与

# 面试线索爆料 #

127441次浏览 699人参与

# 春节前，你还在投简历吗？ #

43220次浏览 351人参与

# 字节7000实习来了，你投了吗？ #

44950次浏览 351人参与

# 大疆求职进展汇总 #

700065次浏览 4351人参与

# 总结:offer选择，我是怎么选的 #

287685次浏览 1566人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务