昨天 14:55 吉林农业大学算法工程师发布于河北

关注

拼多多 AI Agent 开发二面

1、项目里负责的边界是什么？哪些内容是亲手实现和验证的？

2、如果要做一套可落地的 Agent 评测体系，整体怎么设计？

评测一般要分离线和线上两层。离线评测解决“改动前后谁更好”，线上评测解决“真实用户下效果是否稳定”。离线侧我会先把样本按场景拆开，比如知识问答、工具调用、多轮追问、拒答场景、多语言场景、长文本场景，然后分别看回答正确率、工具调用成功率、检索命中率、拒答准确率和格式稳定性。线上侧看用户行为指标，比如首轮解决率、转人工率、二次追问率、平均耗时、token 成本和异常率。

Agent 不能只看最终答案，通常要拆成三层指标：检索层、决策层、生成层。检索层看有没有召回正确证据，决策层看有没有选对工具和参数，生成层看回答是否基于证据、是否完整、是否存在幻觉。这样一旦效果下降，才能知道是检索问题、路由问题还是生成问题。

3、线上质量波动时，怎么判断是模型问题、检索问题还是 Prompt 问题？

先拆链路看日志，不直接拍脑袋。第一步看输入分布有没有变化，比如 query 是否更长、错别字是否变多、语言分布是否变化；第二步看检索结果，确认召回的 topK 里有没有正确证据，如果没有就是检索问题；第三步看模型输入的上下文构造是否正常，有没有把不相关 chunk 或错误记忆塞进去；第四步看 Prompt 或模板有没有更新，版本切换后是否出现格式漂移或者答非所问；最后再看模型本身，比如版本变动、temperature 调整、限流降级是否发生。

通常线上要保留完整 trace，包括 query、改写结果、召回结果、rerank 结果、最终 prompt、模型版本、输出内容和打分指标。没有这些日志，很难快速定位。

4、多语言场景怎么评估？如何做一套简单可执行的离线评测集？如何覆盖不同语言与类目？

多语言评测不能只把中文题翻译一下就结束，必须覆盖不同语言真实表达习惯。做离线评测集时，先按语言拆，比如中文、英文、东南亚语种，再按业务类目拆，比如商品问答、规则说明、客服场景、售后场景、活动场景。每个语言和类目下都要覆盖高频问题、长尾问题、歧义问题、拒答问题和多轮问题。

一套简单可执行的离线评测集可以先按“语言 × 类目 × 场景类型”做分层抽样，每一层挑一批真实 query，再标注标准答案或证据范围。评测时不只看答案文本是否完全一致，更看是否答对、是否引用了正确证据、是否遵守语言要求。多语言场景还要额外看语言漂移，比如用户用泰语提问，系统不要夹杂过多中文或英文。

5、多模态场景怎么评估？如何检查图文一致性和不编造信息？优先做哪些自动化检查？

多模态评测里最核心的是图文一致性、细节准确性和不编造。图文一致性主要看回答是否真的基于图片内容，比如商品颜色、数量、位置、场景和主体；不编造信息主要看图里没有的内容，模型有没有自己补出来。优先做的自动化检查通常是基础属性核验、OCR 相关核验和图文对齐打分。

比如电商图里常见的自动化检查可以先做这些：商品主色是否识别一致、图里是否只有一个主体、OCR 识别出的数字和文本是否和回答一致、是否出现“图中没有的品牌名/参数/促销信息”。如果业务量大，可以再接一个 VLM 做二次核验，把模型回答和图片再做一次一致性判断。

6、Prompt 和模板怎么管理？如何版本化、如何回滚、如何避免一次改动导致整体波动？

Prompt 和模板一定要像代码一样管理，不能靠人工复制粘贴。常见做法是把系统 Prompt、任务模板、few-shot 样例、工具 schema、拒答规则都拆成模块，做版本号管理，并和模型版本、流量实验绑定。这样出了问题可以快速定位到底是模型变了、Prompt 变了，还是工具定义变了。

回滚一般要做到两个层面：配置级回滚和流量级回滚。配置级回滚就是直接切回上一版模板；流量级回滚就是只回滚某个场景或某个实验桶，而不是全量切换。为了避免一次改动导致全局波动，通常会先小流量灰度，再看关键指标，比如回答正确率、拒答率、转人工率、异常率和 token 成本，没有问题再逐步扩大流量。

7、A/B 实验怎么落地？分桶、周期、显著性怎么处理？遇到大促波动时如何解释实验结果？

A/B 实验首先要保证分桶稳定，不能用户今天在 A，明天在 B。一般按 user_id 或 device_id 做一致性哈希分桶，这样同一个用户在实验周期内始终落在同一个桶。周期上至少要覆盖业务波动的完整周期，比如工作日和周末，不然很容易被时段效应误导。

显著性通常看核心指标的样本量、均值差和置信区间，不能只看单日涨跌。大促期间的波动要单独分析，因为用户结构、问题分布、系统负载都会变，直接把大促期和普通期混着看很容易误判。更稳的做法是分层看

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

昨天 11:42

拼多多集团-PDD_前端

二面开始，其实就不太问八股了

我看过一些面试反馈，有一个比较典型的现象：👉 有些人一面没问题，但到了二面，很快就被问住了而且往往不是不会，而是：👉 讲不深、讲不透、讲不下去二面和一面最大的区别在于：👉 不再考“你知道什么”，而是在看：👉 你做过的东西，能不能经得起推敲1️⃣ 项目不再是“讲”，而是“被拆”很多人准备项目的方式是：我做了什么用了什么技术达到了什么效果这些在一面是够用的。但二面通常会直接往下问：👉 细节比如：这个优化你为什么会想到？当时有没有其他方案？为什么不用？如果场景变化，这个方案还成立吗？有没有什么可以继续优化的地方？这类问题的核心不是难，而是：👉 你有没有真正思考过你做的东西很多人卡在这里的...

简历中的项目经历要怎么写

点赞评论收藏

分享

03-21 21:28

门头沟学院 Java

被自己蠢到了

今天做了美团的笔试，算法只a了第一题的20%，ai面答的也是一坨，感觉出师不利啊，美团这边大概率是无缘暑期了，准备下周六在搏一搏。找实习真的好焦虑啊，不知道啥时候才能找到暑期实习，感觉找工作真的是一个漫长的过程，不应该被短期的不愉快影响后面的生活，之前找实习的过程就挺艰难的，希望后面能顺利一点，最后祝友友们找实习顺利哇

点赞评论收藏

分享

昨天 20:56

华北电力大学（保定） Java

蚂蚁集团-AI Coding笔试

使用在线IDE，根据一个readme文件，写出一个完整的项目。readme如下：智能安全邮箱设计题目目标在本地环境实现一个“可用 + 可测 + 有安全设计”的邮箱系统，包含服务端与客户端，并引入基础智能能力。总体约束不可直接使用成熟开源邮箱系统库作为核心实现。可使用通用网络库与基础加密库，但需说明用途。所有功能需提供可复现测试步骤和结果。必做功能1. 服务器管理实现 server 进程，负责接收、存储、分发邮件。测试要求：同时运行两个服务器，模拟两个隔离域名的邮箱系统。两个系统之间可互相发信。两个系统存储应逻辑隔离（不可直接读写对方用户数据目录）。2. 客户端管理实现 client 进程，负责...

点赞评论收藏

分享

昨天 14:10

已编辑

深圳大学 Java

总结一下这周

1.飞猪笔试挂四道题，一个半小时第一题是给你一个字符串，里面有很多个w，然后要按照w分割成一个字符串的数组，然后归并排序一下第二题是给你10000个任务，要求分成100个每批执行，要求同一批是并发的，不同批之间是串行的，也就是要先执行完第n批，才能开始第n+1批第三题是一个SQL题，表结构应该是表1时间+航司+城市表2一个城市和国家的mapping表要求计算覆盖率，也就是某个航司在某一天在某个国家的航班数量/这个国家的城市数量我用了很多子查询最后一题是业务相关假如你订了某个上海的酒店，今天晚上起飞，但是延误了，所以你把机票改到明天，同时把你定的酒店也改到明天设计一下业务流程和主要的表和函数2.抖音支付业务一面挂面试官具体问了很多之前的工作业务，包括表结构以及如何入库的过程。讲到用了分布式锁，万一Redis挂了怎么办我第一反应是这TM是p0级事故，那肯定不是我背锅，会有告警去debug后续才想到，可能是想往Redis集群，高可用性上面去引，还有rdb，aof之类的恢复策略吧问了一些如何考虑金融风险，我工作内容没做过这些，不懂做题是二叉树的最大宽度，bfs看队列最大长度就行，麻烦的是要自己构建树，也就是额外写一个函数构建，这里我用的是完全二叉树法的递归版本，就是和力扣的输入类似的整体一个小时一个小时后收到感谢信，估计是业务不匹配加上没联想到一些点吧3.一些其他公司流程中，可能有希望，至少没有收到感谢信比较常规的八股线程池，集合类之类的jvm gc，类加载golang的切片和channel4.一些想法通过同学拿了很多内推资源，都是很快就收到了感谢信，感觉有点尴尬，工作年限不够，不是应届生，限制很多，有时候会想，why me看到很多公司在裁员，感觉工作不好找，干这一行也朝不保夕的，有时候看到外卖员，快递佬，货车司机他们下班就无忧无虑的也挺羡慕的，感觉要是实在不行就开货车或者送外卖，快递去了，免得这样的心惊胆战的生活。已经gap了快三个月了，感觉已经属于过拟合状态有面试就面，面完复盘，没面试就摆烂了，感觉之前做的算法专项练习还是太偏理论了，用不上，面试也不考。好几家公司都是我半夜投的简历，第二天约面试，也偏偏这些公司挂的最快碎碎念，随便记录一下，希望自己以后用不上

查看10道真题和解析

点赞评论收藏

分享

03-21 16:57

合肥工业大学 Java

导师请吃火锅

题目描述:入职后，导师会请你吃饭，你选择了火锅。火锅里会在不同时间下很多菜。不同食材要煮不同的时间，才能变得刚好合适。你希望吃到最多的刚好合适的菜，但你的手速不够快，用m代表手速，表示每次下手捞菜后至少要过m秒才能再捞(每次只能捞一个)。那么用最合理的策略，最多能吃到多少刚好合适的菜？输入描述: 第一行两个整数n，m，其中n代表往锅里下的菜的个数，m代表手速。 (1<n, m<1000)接下来有n行，每行有两个数x，y代表第x秒下的菜过y秒才能变得刚好合适。(1<x,y<1000)输出描述: 输出一个整数代表用最合理的策略，最多能吃到刚好合适的菜的数量。示例1输入： 2...

点赞评论收藏

分享

评论

1

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招/暑实第一面是哪家？ #

28799次浏览 306人参与

# 军工所铁饭碗 vs 互联网高薪资，你会选谁 #

6062次浏览 31人参与

# MiniMax求职进展汇总 #

20870次浏览 272人参与

# 腾讯音乐求职进展汇总 #

159802次浏览 1100人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

185551次浏览 1102人参与

# 小红书求职进展汇总 #

226123次浏览 1351人参与

# 巨人网络春招 #

10859次浏览 164人参与

# 硬件人秋招的第一个offer #

122237次浏览 1453人参与

# 实习到现在，你最困惑的一个问题 #

31103次浏览 271人参与

# 如果重来一次你还会读研吗 #

228881次浏览 2009人参与

# 网易游戏笔试 #

6024次浏览 83人参与

# 职能管理面试记录 #

10335次浏览 57人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

5911次浏览 150人参与

# 正在春招的你，也参与了去年秋招吗？ #

361555次浏览 2628人参与

# 硬件应届生薪资是否普遍偏低？ #

108108次浏览 601人参与

# 简历中的项目经历要怎么写？ #

308237次浏览 4084人参与

# 工作中遇到的歹人 #

96243次浏览 535人参与

# 我的AI电子员工 #

34026次浏览 223人参与

# 校招笔试 #

460480次浏览 2940人参与

# AI时代，哪些岗位最容易被淘汰 #

60548次浏览 632人参与

# 你怎么看待AI面试 #

178253次浏览 1073人参与

# 如何一边实习一边找下家？ #

39589次浏览 343人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务