【面经】阿里淘宝闪购 · Agent 算法工程师 · 27届实习一面 时长约 60 分钟

自我介绍后直接进入项目深挖,无技术笔试,全程围绕 Agent 工程经验展开。

Q1:你为何选用 OpenAI Agents SDK 而非开源框架?出于安全合规考量,开源方案是否更合适?

核心考点是框架选型的 trade-off 认知。我说明了 SDK 在 tool 编排稳定性和工程成熟度上的优势,同时承认在企业生产环境中确实应优先评估开源/私有化部署方案,以满足数据不出域要求。面试官对"我知道它的局限"这个态度比较认可。

Q2:你遇到过需要人工强制中断 Agent 执行的情况吗?如何处理 Human-in-the-Loop?

介绍了关键 tool 执行前插入确认节点、置信度低于阈值时暂停并通知人工审核的方案。面试官追问是否在 .md 文件里写了强制停止条件——我说有在 instruction file 中定义 STOP_CONDITION,Agent 每轮 plan 阶段会读取校验。

Q3:在高风险在线环境中,Agent 异常管控方案是什么?

我从四个维度回答:① tool 操作分级(只读/可逆写入/不可逆三类);② 熔断机制(连续 N 次失败自动终止);③ 沙箱与生产隔离;④ 结构化审计日志。

Q4:token 用量规模?长周期对话(间隔数周后继续)如何管理历史?

需要回答每天token用量,我是1M。重点介绍了分层压缩策略:近期原文保留→历史按时间粒度摘要压缩→关键事件结构化存入向量数据库,新会话通过检索相关片段注入 system prompt 完成冷启动。

Q5:对比 OpenClaw(龙虾)和 Hermes 的记忆机制,重点说说 OpenClaw 的分层压缩方案和 .md 文件使用方式。

OpenClaw 以时间轴为轴分层:T-1h 完整保留、T-24h 段落摘要、T-7d 关键词图,结合语义相似度分层召回。Hermes 侧重 episodic memory,双索引但长历史压缩粒度不如前者。我的方案是融合两者,.md 用于 human-in-loop 审查,向量库用于语义检索。

Q6:你的 Agent 还有哪些未充分优化的空间?

当前最大短板是缺闭环反馈。补充的方向:基于 task 完成率的 DPO/PPO 微调 planner;量化 alpha 上线前的历史回测+仿真双验证;多版本 Agent 沙盒 ELO 竞争选优;以及元认知层的自我评分机制。

Q7:除调用 API,你有 SFT 或模型层工作经验吗?

有。基于 BERT(0.1B)做了金融新闻双任务微调(重要性回归 + 情感分类),发布在 HuggingFace Hub,40+ 下载量。这段经历让我在 Agent 的 retrieval 和 re-ranking 模块设计中有直接应用。

Q8:你的 Agent 和别人开发的相比,核心差异是什么?

我说大家模型和框架可能趋同,差距体现在:① 严格的 function schema 校验减少格式错误;② CLI 封装原子化操作,token 消耗降低约 30%;③ 针对业务裁剪 tool 集合,平均 tool call 轮次从 8 降至 4,相比依赖 MCP 通用协议的方案更轻。

Q9(Web3 经历):你在区块链方向做了哪些工作?

① 微信群聊舆情→AI 决策→自动交易全链路;② 基于链上交易图的异质 GNN 团伙操纵识别算法。

反问(面试官回答很真诚):

  • 淘宝闪购 Agent 主要做时空预测(ETA)、内部知识库、人员效能提升和 AI Coding 探索
  • 与外部智能客服的本质区别:服务内部算法团队,核心是算法研发提效和最优化自动化(Auto Research)
  • 技术方向:大模型+运筹+深度学习+强化学习融合,无单一主轴

AI Coding 压轴题:本地 AUC 训练 92%、测试 89%,上线后跌至 62%,从数据/标签/serving 三维给出 8+ 原因并排序

面试官会给你邮箱发邮件,然后用阿里qwen3.5模型回答给出的问题,面试官会追问答案原因,从自身经验回答。

按优先级排序:① Train-Serving 特征分布偏移(最高频根因)→ ② 线上样本分布与训练集不一致 → ③ 特征泄露导致离线 AUC 虚高 → ④ 标签定义口径不一致 → ⑤ Label Delay 问题 → ⑥ 标注噪声线上放大 → ⑦ 模型版本与 feature schema 未对齐 → ⑧ 在线推理精度损失/缺失填充策略不一致

排序依据:数据层 skew 对 AUC 影响幅度最大(可达 10-30%),工业界出现频率最高,因此排在前三;标签问题通常灰度期可被发现;serving 层问题通过日志比对可快速定位,实际频率相对低。

备考提醒: 面试官会持续追问"为什么这么做",准备好每个技术选型的 trade-off 表述比准备"最优答案"更重要。

#阿里##实习面经##AI求职记录##我的求职进度条##发面经攒人品#
全部评论
ai coding是直接与大模型交互吗,我还以为是写代码解决相关问题
点赞 回复 分享
发布于 05-10 00:08 湖北
老哥算法做的哪套卷子啊,nlp还是运筹?
点赞 回复 分享
发布于 05-08 10:40 江苏
点赞 回复 分享
发布于 04-30 16:08 浙江

相关推荐

如果春招能重来,我会早点打磨简历、海量投递不摆烂,拒绝过早躺平与盲目自信。回头看整个春招,全是一步步踩出来的遗憾:不该秋招拿到保底 offer 就放松警惕,误以为春招随便考考就行,低估了行情内卷程度;简历敷衍修改,项目描述没有量化成果、不贴合岗位 JD,海投大多石沉大海,错失很多笔试机会;投递节奏混乱,前期拖延观望、后期扎堆冲刺,错过大量大厂和优质中厂的截止时间;面试没有及时复盘,八股、算法、项目深挖准备碎片化,面完不总结,重复踩相同的坑;不会合理规划选择,纠结薪资、地点、业务方向,犹豫再三反而错失合适 offer。重来一次,一定会这样调整1. 投递策略:早投、多投、分批投不卡点、不拖延,岗位放出第一时间投递,不分大厂小厂、不挑三拣四,保底 + 稳妥 + 冲刺三层投递全覆盖,每天固定投递量,拒绝三天打鱼两天晒网。2. 简历优化:精准定制,贴合岗位针对 Java、测开、大模型相关不同岗位,拆分版本简历:后端岗突出开发能力、接口开发、数据库、中间件实战;测开侧重自动化测试、性能测试、脚本编写、CI/CD 流程;大模型相关岗位补充模型应用、prompt 工程、数据集处理、AI 项目落地经验;项目经历用场景 + 行动 + 结果写法,量化数据,弱化无关内容。3. 备考节奏:系统备考,拒绝临时抱佛脚八股分模块梳理:Java 基础、JVM、并发、MySQL、Redis、网络、操作系统,定期复盘背诵;算法稳步刷题,中等难度高频题反复练,手写代码、熟悉面试机考模式;深挖个人项目,准备好难点、优化点、踩坑问题、业务逻辑,应对面试官深挖追问。4. 面试复盘:每场必总结面完立刻记录被问倒的问题、回答卡顿的知识点,当天补齐短板,整理面试题库,越面越稳,避免重复翻车。5. 心态与选择:不躺平、不内耗不因为一个小 offer 就躺平,也不因为暂时没 offer 焦虑摆烂;理性对比 offer,综合薪资、发展、业务、加班、城市权衡,不盲目拒保底、不盲目冲大厂。春招最大的感悟:求职从来不是尽力就行,而是提前规划、持续努力、步步稳妥。希望正在备战后续补招、秋招的同学,别再复刻这些遗憾,提前准备、主动出击,都能拿到心仪 offer✨
如果春招能重来,我会__...
点赞 评论 收藏
分享
一、实习内容二、项目1. 如果遇到工具调用失败或物理资源不满足的情况,agent会有一些兜底机制吗,例如重试、兜底、熔断,如果没有,需要设计的话会怎么设计?2. 正常来说,一个query进了RAG之后,整体的工作流程是怎样的?3. 在做改写跟扩写的时候,如果是多轮的对话,改写跟扩写有什么机制吗?4. 会把上下文都会传给这个改写的大模型节点吗?5. 如果只是单纯的做滑动窗口,当时为什么没有考虑做上下文压缩?6. 如果想要优化上下文压缩,觉得是前面前置轮次更重要还是后置轮次更重要?7. 记忆分层中,长期记忆跟短期记忆在agent中具体扮演什么功能?三、场景题相关问题1. 为金融客服场景设计一个RAG和加Agent的系统,从成本和性能综合考虑如何选择资源,例如模型选型、硬件资源,是否需要做一些后训练?2. 大语言模型的选型一般会怎么选,如果在金融业务场景里的话?3. 上线的agent服务在突然有一天关键业务用例开始返回错误答案,甚至可能影响线上服务,作为agent的负责人,会怎么定位问题,如何保障系统不受影响?4. 一般情况下什么操作会导致召回的东西有问题?5. 在真实业务当中,agent由开发或研发同学设计维护,业务基础知识由产品经理甚至产品运维维护,会如何考虑这种分工来保证不出召回问题?手撕:买卖股票1,2
查看13道真题和解析
点赞 评论 收藏
分享
评论
3
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务