淘天 AI Agent开发 一面

1. 自我介绍

2. Transformer 里 Attention 的本质是什么,为什么它适合 Agent 场景

Attention 本质上是在做动态加权的信息选择,模型不是把所有上下文平均看,而是根据当前 query 去分配不同 token 的影响力。它的优势在于能处理长距离依赖,并且支持内容寻址,这对 Agent 场景很关键,因为 Agent 经常要从长历史、工具返回和外部知识里挑出当前最有用的信息。真正落地时,Attention 的问题不在“能不能看远”,而在“看得太多以后会不会被噪声拖偏”。

3. 在多轮对话 Agent 中,Attention 的局限性体现在哪些方面

局限性主要体现在三个地方:一是上下文长度有限,历史一长就不得不裁剪;二是注意力分配并不等于真正的任务相关性,模型可能被格式、位置或重复内容误导;三是纯 Attention 只能在已有上下文里选信息,没法天然解决外部检索、长期记忆和状态恢复。也就是说,Attention 适合做信息融合,但不适合单独承担任务记忆和运行时控制。

4. 简要介绍一下 SFT 的核心流程,以及数据集的构建策略

SFT 的核心流程就是先把目标任务的输入输出格式固定下来,再用高质量监督样本做行为对齐。数据构建时不能只追求数量,而要追求覆盖度、难度分层和噪声控制。一般会把样本分成基础指令、复杂推理、拒答样本、工具调用样本和格式约束样本几类,并且尽量让高价值样本占更大比例。SFT 的目标不是让模型“背答案”,而是让模型先学会按任务要求稳定工作。

5. PPO 和 DPO 在大模型对齐中的主要区别是什么,DPO 训练时有哪些注意事项

PPO 是基于奖励模型和策略梯度的优化方法,训练流程更重,对稳定性、采样和奖励建模要求都高;DPO 则是直接利用偏好对来做优化,省去了显式奖励模型训练,工程上更简单。DPO 训练时要特别注意偏好数据质量、正负样本顺序、长度偏差和偏好噪声,否则模型容易学到表面模式。实际项目里,DPO 往往更适合做偏好对齐的后半段,而不是从零解决全部对齐问题。

6. 用过 GRPO 吗,它和 DPO 的差别在哪里

GRPO 更强调组内相对优势,通常会把同一个输入下采样出来的多个候选放在一起比较,用相对表现来做更新;DPO 更像是直接对成对偏好做概率约束。前者对组采样质量和组内比较机制更敏感,后者对 pairwise 数据更友好。简单说,DPO 更直接,GRPO 更偏“同题多答后做相对优化”,在一些需要稳定比较多个候选的场景里会更合适。

7. 说一下 RAG,它是怎么提升生成质量的

RAG 的核心不是“检索 + 拼接”,而是把模型从纯参数记忆转成“参数记忆 + 外部证据”的混合生成。它通过召回相关文档,把当前问题所需的事实、背景和证据放进上下文里,降低幻觉概率,也让答案更可追溯。真正好的 RAG 不只是召回准,还要能控制切片粒度、排序质量、证据覆盖和最终引用一致性,否则检索到了也不一定能用好。

8. 如何评估一个 RAG 系统是否 work

不能只看最终回答像不像,得拆成多个层面看:检索召回率、证据命中率、答案事实一致性、引用准确率、长尾问题表现和端到端任务成功率。还要看坏 case,比如检索到了但排序不对、证据有用但被模型忽略、答案看起来对但引用错文档。真正上线时,RAG 的评估应该和业务目标绑定,比如客服场景看可解释性,知识问答看事实一致性,研究场景看覆盖和证据完整性。

9. 项目里微调 Qwen 时,训练阶段和 Loss 是怎么选的

如果是能力补齐,通常会先用 SFT 把格式和任务流程对齐,再根据业务目标决定是否进入偏好优化阶段。Loss 一般不会只看标准的交叉熵,还要考虑样本权重、长短样本平衡、拒答样本权重和特殊字段损失。比如抽取类任务会更关注结构化字段准确率,生成类任务更关注整体流畅性和事实一致性。选训练阶段的核心原则是:先让模型“会做”,再让模型“做得更符合业务偏好”。

10. Prompt 自动推荐模块用了哪些优化策略

Prompt 推荐不只是模板匹配,更重要的是根据任务意图、历史表现和模型反馈做动态选择。常见优化包括:对 prompt 做结构化拆分、把高频成功模板做 embedding 检索、对低质量提示做压缩和去冗余、对不同任务阶段做 prompt 分层。工程上还会把 prompt 版本、命中率和失败样本挂钩,持续做灰度和回放。真正有效的 prompt 系统,应该能随着场景变化自动迭代,而不是靠人工堆文案。

11. 如果一个 Agent 推理链路包含 3 个工具 + 高频请求,整体延迟较高,你会怎么优化

先拆链路,看延迟到底卡在模型、工具、网络还是排队。常见做法是并行化可并行工具、缩短上下文、压缩工具返回、提前缓存高频结果、对低价值步骤做降级或跳过。对高频请求还可以做请求合并、热点缓存和异步预取。真正要避免的是所有步骤串行硬跑,因为 Agent 链路一旦串起来,任何一个慢点都会放大到整体体验上。

12. 项目里的 Modular Agent 是怎么做多步规划的

通常不是让模型一次性把完整计划全吐出来,而是先做任务分解,再对每一步建立状态和约束。计划层会维护目标、子目标、依赖关系、已完成动作和待执行动作,执行层只负责当前一步。这样遇到失败时可以局部回退,不至于整个任务重来。多步规划最怕的是计划和执行混在一起,一旦中间出错,后面根本不知道该回到哪一步。

13. 项目

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

昨天 23:11
已编辑
燕山大学 Java
1. 先做一下自我介绍2. 为什么做了这个****的项目,simple timer 是你在这个公司做的?3. 你具体做到哪个模块啊?简历上写了具体模块,你具体设计的业务就是你自己做的上模块4. Spring 框架都用到了哪些设计模式?(这题答得比较浅,只说了单例、工厂,没展开)5. 你这个项目后端框架主要用啥啊?6. Spring Boot 里面这个 `@RequestMapping` 和 `@GetMapping` 有啥不同的地方?7. Spring MVC 这个运行流程是什么?8. Spring / Spring Boot 里面用过的注解都有什么?9. 数据库用过啥呀?10. MySQL 里面那个字段类型都有啥呢?11. 你刚刚说提到这个 char 和 varchar,char 和 varchar 有啥区别?12. MySQL 当这种业务当中如果遇到这个是否存在慢查询,一般要怎么排查,然后怎么做优化?13. 自己业务中有见过索引吗?14. MySQL 里面这种锁有哪些?15. Java 当中字节流和字符流有啥区别?16. Java 中有个 Files 类,这个 Files 类一般用过的方法,常用的方法有哪些?17. 问一下这个多线程啊,比如有 ABC 三个线程,然后要如何保证这三个线程顺序执行?18. 数据结构有学过吗?19. 有一题啊,就是比如你现在在爬楼梯,有 N 个台阶,每次可以爬一个或两个台阶,有多少种方法到楼顶,这个要怎么算啊?20. 你当时那个高考分数是多少?21. 你还记得当时一本线,你们当时只过一本线了?22. 四级过了吗?23. 你期望薪资是多少?(1.2w)反问1. 如果我进贵公司的话,可能做的是哪些业务呢?可以讲一讲吗?2. 您对我整场面试的一个感受和建议可以说一下吗?
点赞 评论 收藏
分享
昨天 11:07
已编辑
门头沟学院 C++
首先,这个肯定挂了但还是说一下吧手撕:一个巨简单的题,大一新生都会做,就是一个数组按照长度分割,而且对面面试官把格式都写好了,只需要像leetcode一样简单些几行即可。(这里楼主大脑宕机了,犯了一个低级错误类似没写分号那种,搞了半天最后是面试官提醒我才搞好)项目:我写的项目正好撞枪口了,对方就是做wx音视频通讯的,可以说被拷打地体无完肤(当然在最后的反问环节,我也用同样的问题拷打了面试官)八股:协程,加密,tcp,udp等等反正我很菜吧,面试官都会根据你的水平来出,我觉得参考价值不大就先不整理了反问:面试表现这块,面试官说我表现地很好没什么问题(这句话出来心凉透了,本来就知道凉了)说我是他面过表现最好的,我立马反问,你是只面试过我一个吗,面试官说面过很多😀😀😀我真的笑发财了,他还说我反应特别快,其实就是我答不上来就直接说不知道,摆烂的速度很快。有一说一这个面试官不像上一个那么温柔,这个不怎么笑还总是直击痛点,可能这就是wxg的实力吧。孩子没招了,网上大家的面筋都是被拷打,我连被拷打的资格都没有,唉,好羡慕那些大佬,学了很多我不会的东西,我感觉自己像个弱智一样,面试甚至比平时还傻一点 。------------------------更新:秒挂😎
查看3道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务