拼多多 AI Agent 开发二面

1、项目里负责的边界是什么?哪些内容是亲手实现和验证的?

2、如果要做一套可落地的 Agent 评测体系,整体怎么设计?

评测一般要分离线和线上两层。离线评测解决“改动前后谁更好”,线上评测解决“真实用户下效果是否稳定”。离线侧我会先把样本按场景拆开,比如知识问答、工具调用、多轮追问、拒答场景、多语言场景、长文本场景,然后分别看回答正确率、工具调用成功率、检索命中率、拒答准确率和格式稳定性。线上侧看用户行为指标,比如首轮解决率、转人工率、二次追问率、平均耗时、token 成本和异常率。

Agent 不能只看最终答案,通常要拆成三层指标:检索层、决策层、生成层。检索层看有没有召回正确证据,决策层看有没有选对工具和参数,生成层看回答是否基于证据、是否完整、是否存在幻觉。这样一旦效果下降,才能知道是检索问题、路由问题还是生成问题。

3、线上质量波动时,怎么判断是模型问题、检索问题还是 Prompt 问题?

先拆链路看日志,不直接拍脑袋。第一步看输入分布有没有变化,比如 query 是否更长、错别字是否变多、语言分布是否变化;第二步看检索结果,确认召回的 topK 里有没有正确证据,如果没有就是检索问题;第三步看模型输入的上下文构造是否正常,有没有把不相关 chunk 或错误记忆塞进去;第四步看 Prompt 或模板有没有更新,版本切换后是否出现格式漂移或者答非所问;最后再看模型本身,比如版本变动、temperature 调整、限流降级是否发生。

通常线上要保留完整 trace,包括 query、改写结果、召回结果、rerank 结果、最终 prompt、模型版本、输出内容和打分指标。没有这些日志,很难快速定位。

4、多语言场景怎么评估?如何做一套简单可执行的离线评测集?如何覆盖不同语言与类目?

多语言评测不能只把中文题翻译一下就结束,必须覆盖不同语言真实表达习惯。做离线评测集时,先按语言拆,比如中文、英文、东南亚语种,再按业务类目拆,比如商品问答、规则说明、客服场景、售后场景、活动场景。每个语言和类目下都要覆盖高频问题、长尾问题、歧义问题、拒答问题和多轮问题。

一套简单可执行的离线评测集可以先按“语言 × 类目 × 场景类型”做分层抽样,每一层挑一批真实 query,再标注标准答案或证据范围。评测时不只看答案文本是否完全一致,更看是否答对、是否引用了正确证据、是否遵守语言要求。多语言场景还要额外看语言漂移,比如用户用泰语提问,系统不要夹杂过多中文或英文。

5、多模态场景怎么评估?如何检查图文一致性和不编造信息?优先做哪些自动化检查?

多模态评测里最核心的是图文一致性、细节准确性和不编造。图文一致性主要看回答是否真的基于图片内容,比如商品颜色、数量、位置、场景和主体;不编造信息主要看图里没有的内容,模型有没有自己补出来。优先做的自动化检查通常是基础属性核验、OCR 相关核验和图文对齐打分。

比如电商图里常见的自动化检查可以先做这些:商品主色是否识别一致、图里是否只有一个主体、OCR 识别出的数字和文本是否和回答一致、是否出现“图中没有的品牌名/参数/促销信息”。如果业务量大,可以再接一个 VLM 做二次核验,把模型回答和图片再做一次一致性判断。

6、Prompt 和模板怎么管理?如何版本化、如何回滚、如何避免一次改动导致整体波动?

Prompt 和模板一定要像代码一样管理,不能靠人工复制粘贴。常见做法是把系统 Prompt、任务模板、few-shot 样例、工具 schema、拒答规则都拆成模块,做版本号管理,并和模型版本、流量实验绑定。这样出了问题可以快速定位到底是模型变了、Prompt 变了,还是工具定义变了。

回滚一般要做到两个层面:配置级回滚和流量级回滚。配置级回滚就是直接切回上一版模板;流量级回滚就是只回滚某个场景或某个实验桶,而不是全量切换。为了避免一次改动导致全局波动,通常会先小流量灰度,再看关键指标,比如回答正确率、拒答率、转人工率、异常率和 token 成本,没有问题再逐步扩大流量。

7、A/B 实验怎么落地?分桶、周期、显著性怎么处理?遇到大促波动时如何解释实验结果?

A/B 实验首先要保证分桶稳定,不能用户今天在 A,明天在 B。一般按 user_id 或 device_id 做一致性哈希分桶,这样同一个用户在实验周期内始终落在同一个桶。周期上至少要覆盖业务波动的完整周期,比如工作日和周末,不然很容易被时段效应误导。

显著性通常看核心指标的样本量、均值差和置信区间,不能只看单日涨跌。大促期间的波动要单独分析,因为用户结构、问题分布、系统负载都会变,直接把大促期和普通期混着看很容易误判。更稳的做法是分层看

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

昨天 14:10
已编辑
深圳大学 Java
1.飞猪笔试挂四道题,一个半小时第一题是给你一个字符串,里面有很多个w,然后要按照w分割成一个字符串的数组,然后归并排序一下第二题是给你10000个任务,要求分成100个每批执行,要求同一批是并发的,不同批之间是串行的,也就是要先执行完第n批,才能开始第n+1批第三题是一个SQL题,表结构应该是表1时间+航司+城市表2一个城市和国家的mapping表要求计算覆盖率,也就是某个航司在某一天在某个国家的航班数量/这个国家的城市数量我用了很多子查询最后一题是业务相关假如你订了某个上海的酒店,今天晚上起飞,但是延误了,所以你把机票改到明天,同时把你定的酒店也改到明天设计一下业务流程和主要的表和函数2.抖音支付业务一面挂面试官具体问了很多之前的工作业务,包括表结构以及如何入库的过程。讲到用了分布式锁,万一Redis挂了怎么办我第一反应是这TM是p0级事故,那肯定不是我背锅,会有告警去debug后续才想到,可能是想往Redis集群,高可用性上面去引,还有rdb,aof之类的恢复策略吧问了一些如何考虑金融风险,我工作内容没做过这些,不懂做题是二叉树的最大宽度,bfs看队列最大长度就行,麻烦的是要自己构建树,也就是额外写一个函数构建,这里我用的是完全二叉树法的递归版本,就是和力扣的输入类似的整体一个小时一个小时后收到感谢信,估计是业务不匹配加上没联想到一些点吧3.一些其他公司流程中,可能有希望,至少没有收到感谢信比较常规的八股线程池,集合类之类的jvm gc,类加载golang的切片和channel4.一些想法通过同学拿了很多内推资源,都是很快就收到了感谢信,感觉有点尴尬,工作年限不够,不是应届生,限制很多,有时候会想,why me看到很多公司在裁员,感觉工作不好找,干这一行也朝不保夕的,有时候看到外卖员,快递佬,货车司机他们下班就无忧无虑的也挺羡慕的,感觉要是实在不行就开货车或者送外卖,快递去了,免得这样的心惊胆战的生活。已经gap了快三个月了,感觉已经属于过拟合状态有面试就面,面完复盘,没面试就摆烂了,感觉之前做的算法专项练习还是太偏理论了,用不上,面试也不考。好几家公司都是我半夜投的简历,第二天约面试,也偏偏这些公司挂的最快碎碎念,随便记录一下,希望自己以后用不上
查看10道真题和解析
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务