蚂蚁集团

收藏
互联网
10000人以上
D轮及以上
杭州/上海/北京/深圳/重庆
高校必争榜offer比较常胜榜校招高薪榜牛客指数榜
查看官网
上传简历
职位类型
全部
后端开发
前端开发
测试
人工智能/算法
产品
更多
最新
热门
1.你的 Agent 系统Prompt 是怎么设计和迭代的?有没有做过 Prompt 自动优化?当用户提出不完整的请求时,如何补全用户意图的?2.构建 Agent 的时候,遇到过哪些瓶颈?LangChain 的 memory 默认机制在多3.用户并发中怎么做隔离?你是如何保证线程安全的?4.微调 Llama2 你是怎么选择训练样本的?清洗逻辑是什么?你有没有观察到哪些训练样本质量问题对模型行为有很大影响?举例说明。5.DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工?6.你说你服务部署在 vLLM 上,为何选择它?KV-cache 如何帮助推理加速?你自己做过哪些优化?7.假如需要支持 Streaming 输出,但当前服务延迟又超标,你会怎么折中设计?8.多轮对话上下文状态管理是如何做的?如何在高并发场景下保证一致性?9.你做的 Agent 使用了多少个外部工具,在调用链条上如何保障故障容错和超时机制?10.有没有做过工具调用失败后的feedback策略设计?11.训练过程中数据来自用户行为日志,你是如何从这些数据中抽取训练对话的?有没有做过归一化或事件抽象?12.有没有了解过带有时间窗口/偏移限制的对话系统?模型怎么“理解时间”?13.你觉得 Agent 哪些模块最容易在真实业务中出问题?你会如何监控和定位的?
查看13道真题和解析
点赞 评论 收藏
分享
11-25 21:13
已编辑
门头沟学院 Java
查看17道真题和解析
点赞 评论 收藏
分享
查看16道真题和解析
点赞 评论 收藏
分享
1️⃣一面 1、介绍自己的中厂实习,从业务背景,困难,解决方法,自己的产出四个维度阐述。2、 ppo 和 dpo 区别和原理(因为实习做的就是 rl 相关)3、是不是用的 Verl 框架做的 rl ?详细讲一下 verl 框架的训练流程。并讲一下配置文件中 rollout _ batchsize , global _ batch _ size , micro _ batch _ size _ per _ device _ for _ update , rollout . n 等等参数的关系,以及他们如何影响最终更新时每张显卡上的样本数。4、reward function 如何设计的为什么这么设计?5、critic model 作用是什么?为什么有了 reward model 还需要 critic model ?6、有没有了解最近的 rl 方法?过了一遍 grpo , dapo , gspo 过了的主要改进点7、计算机基础八股: B 树和 B 一树的区别。如果 CPU 突然被打满了,如何排查?什么情况下会出现锁,如何解决。8、核心代码模式,写一下大模型预测token 时, beam 树如何构建,如何得到最终的结果( pytorch 简单实现了一下,主要是还是讲明白)9、手撕hot100,中等题,最小生成树。2️⃣二面1、简单介绍中厂实习经历。2、模型蒸馏的数据如何做的?如何清洗蒸馏得到的数据?3、有没有使用强化学习做过数据仿真。这个之前看过一篇论文,刚好讲了一下。4、有没有了解过训练推理一致性这个领域?我讲了一下强化学习领域的推训一致性,固定 flash attention 分块策略, vllm 推理框架固定 page attention 分块策略。5、模型量化如何做的。 gptq , qat 等等,并说明为什么选择了w8a16的量化?6、写一下 ppo 算法的损失函数和 GAE 优势函数。主要还是讲明白7、 grpo 算法中 kl 散度和之前的方法有什么区别?在 dapo 中为何舍弃了 kl 散度?8、模型蒸馏主要的两种方式。硬标签和软标签。9、介绍一下 kmeans 算法,如何设置合适的 k 值。如果在一个非常大的数据量中,如何实时增量更新,并动态管理 k 值。10、一个场景题11、手撕题hot100,中等题,合并 k 个升序链表。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看19道真题和解析
点赞 评论 收藏
分享
查看12道真题和解析
点赞 评论 收藏
分享
分享我的面试经验
模拟面试
真实面试体验,快速补齐短板
应聘感受
暂无应聘感受
牛客网
牛客网在线编程
牛客网题解
牛客企业服务