今天 09:07 吉林农业大学算法工程师发布于河北

关注

小鹏 AI Agent 开发二面

1、自我介绍

2、项目深挖

3、如果让你设计一个 Agent 的评测体系，你会怎么做

Agent 的评测不能只看最终回答像不像，因为很多场景里最终答案看起来没问题，但中间过程其实已经错了。真正可用的评测体系应该至少覆盖三层。

第一层是结果评测，也就是任务有没有完成，最终输出是不是符合目标。第二层是过程评测，要看任务拆解是否合理、工具是否选对、参数是否正确、执行顺序是否稳定。第三层是系统评测，要看延迟、成功率、重试率、单次成本、异常恢复能力这些工程指标。

如果是线上系统，我会把评测拆成离线和在线两部分。离线阶段构造标准数据集，做固定样本回放，评估规划正确率、工具调用成功率、任务完成率和输出质量。在线阶段则重点监控真实请求中的失败样本、用户中断点、异常分布和效果漂移。因为 Agent 的问题很多不是一次性暴露出来的，而是会随着数据分布变化逐渐恶化，所以评测体系必须是持续运行的，而不是只在上线前做一次。

4、Function Calling 和 MCP 你怎么理解

Function Calling 的核心是让模型不只是输出自然语言，还能按照约定格式去调用外部工具。它本质上是一种“受约束的工具调用接口”，模型负责决定要不要调工具、调哪个工具、传什么参数，系统再根据这个结构化结果去执行。

MCP 更像是把模型和外部工具、资源之间的连接方式标准化。它不是只解决“调用一个函数”的问题，而是希望把模型如何访问工具、文件、服务、上下文这些能力抽象成统一协议。这样模型不需要对每个工具都写一套特殊适配逻辑，而是通过统一接口完成连接。

简单说，Function Calling 更偏具体调用机制，MCP 更偏通用连接协议。前者解决“怎么调”，后者解决“怎么统一接”。

5、如果模型工具调用经常出错，你怎么解决

工具调用出错，通常不是单点问题，而是整个链路都可能有风险。最常见的错误有三类：一类是工具选错了，模型理解任务时就偏了；一类是工具选对了，但参数抽取错了；还有一类是工具执行成功了，但模型对返回结果理解错了。

解决时我一般会先把调用链拆开看。首先要把工具定义写得足够清晰，尤其是工具描述、参数含义、必填项和边界条件，否则模型很容易误判。其次是参数层面要做 schema 校验，不能模型传什么就直接执行。再往下，工具返回结果最好结构化，不要返回太随意的自然语言，否则模型后处理时会继续放大歧义。对于高风险工具，还要做执行前确认、执行后校验和失败回退，不能把所有决策都交给模型自由发挥。

6、你怎么理解 Agent 的规划能力和工作流的区别

工作流的核心是提前把路径定义好，系统按既定步骤执行。它的优势是稳定、可控、好观测，适合流程比较固定、边界明确的业务。缺点是灵活性有限，一旦任务变化比较大，就需要频繁改规则。

Agent 的规划能力则更强调根据目标动态决定下一步做什么。它不一定提前知道完整路径，而是会在执行过程中根据环境反馈持续调整。这样灵活性更强，适合复杂任务和开放场景，但稳定性和可控性也更差。

所以两者不是完全对立的。真实业务里，很多时候不是纯工作流，也不是纯自由规划，而是把核心稳定链路做成工作流，把不确定性高的局部交给 Agent 去决策。这样既能保住系统稳定性，又能利用模型的泛化能力。

7、上下文窗口越来越长，为什么模型效果不一定更好

上下文窗口变长，不等于模型真的能有效利用这些信息。窗口只是“能装下”，不代表“能理解好”。如果上下文过长，模型在注意力分配上会更困难，尤其是中间位置的信息很容易被忽略，最后可能出现前面记得住、后面也记得住，但中间关键信息反而利用不好的情况。

另外，长上下文本身也会带来噪声问题。很多内容虽然被塞进去了，但和当前任务并不强相关，模型反而会被这些无关信息干扰。再加上推理时上下文一长，成本、延迟和缓存压力都会上来，所以实际系统里不能只追求窗口更大，而是要考虑怎么把真正有用的信息选出来、压缩好、组织好。

8、如果让你做一个长期记忆模块，你会怎么设计

长期记忆不能简单理解成把所有历史对话都存起来。真正可用的长期记忆应该只保留对未来决策真正有价值的信息，比如用户稳定偏好、常见任务模式、长期背景、关键历史结论，而不是把所有原始聊天记录原封不动堆进去。

设计上我会把长期记忆分成两部分。一部分是结构化记忆，用来保存明确字段，比如用户身份偏好、历史配置、固定业

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

03-10 18:46

杭州电子科技大学 Java

牛友们，这样的实习有意义吗？

这样的实习算纯crud吗，以后打算做纯后端，有意义吗？现在在一家小公司实习做全栈，公司大概就七八个人，写代码的就我和我的ld，最近的两个比较大的需求一个是设计一张新的数据表开发和别的公司的合作业务，涉及一些简单的权限校验功能。还有一个功能是价格日历，以及价格模块的迁移，现在的价格计算功能是在前端计算的，需要我迁移到后端，以及从0开发一个和日历挂钩的价格变更，现在的价格是固定的。因为ld也是一个股东，他的上班时间很自由，所以很多需求都是我和产品经理直接对接的。以及因为我每周四学校有课，在校上课，上完课大概下午三点， 有必要平常投简历，每周四去进行一个面试来提升面试水平吗？

再来!!!：小公司都不会太深，有时间建议看一些书，举例DDIA，每章后面都有论文引用，你就带着思考去看，收益很多，比较功利的比如极客时间，上面有些专栏还可以，没事看两章拓展广度。兄弟如果考虑换工作可以看我住叶，多多大量招人，我们这边是基础平台，不是简单的crud，比较有技术

点赞评论收藏

分享

03-14 16:05

大连海事大学 Java

笔试要怎么才能过啊......

这两天陆陆续续开始做笔试了，但是感觉这跟hot100不沾边吧，完全没思路目前就做了携程美团米哈游的，我报的java但是米哈游选择题还都是cpp（qwq）完全不懂qwq感觉拼尽全力也就能过一两题甚至一题都没过......但是hot100确实刷了啊然后马上就是多多和小红书还有蚂蚁，我问问这难度这么高是必须要全a才能进面吗，还是说占比不高qwq

点赞评论收藏

分享

03-15 18:16

中南大学 Java

每天都是宿舍自习两点一线，，还不知道能不能找到实习。连着半个月已经受不了了。。。互联网我真能干吗。疲倦。中考要上岸高考要上岸他妈的大学期末也要努力现在找个暑期实习还要上岸。上不完的岸。

点赞评论收藏

分享

03-14 10:53

西南大学 Java

楼主是某本211计算机，25届毕业，毕业前当时玩的过猛，没实习经验，毕业后开始学习刷题刷了两个月，准备去考华为OD，但是感觉没把握，然后又是秋招期间，便去投了一家外包公司，干鸿蒙开发，三方库适配，干了两个月，突然拉小黑屋，也不知道是能力不行，还是招惹了leader还是公司想吃应届福利，当时招的时候面的JAVA，干的是前端的活，最后还给我交了社保，后面被裁了，年前离职，现在依旧在看题目，下个月打算去考考，八股还没咋背，但是看网上投递的公司招聘要求，现在都没啥25届的岗位了，哎不知道咋办了，佬们有啥建议吗，25届还有就业渠道路径选择吗，或者发展选择考研、出国水硕啥的

点赞评论收藏

分享

03-11 20:19

已编辑

门头沟学院 Java

腾讯后台开发一面

太压力了，面了2个多小时，本菜比已经被拷打的瑟瑟发抖面完两个小时后通知过了1.算法题三道（1）leetcode124 二叉树中最大路径和hard题 因为不久前才刷过撕出来了，又来了一道（2）leetcode 300 最长递增子序列变种除了递增之外还加了一个权重因素，但是思路没变，dp就行（3）寻找词汇库里符合固定长度前缀的匹配单词应该是他们自己题库的题。给了一串单词列表，然后又给了一个单词，一个下标，根据这个下标的前缀去单词列表里面找到所有匹配的单词再返回思路是创建一个单词前缀树，然后根据树找，但是可能是构件树数有问题没撕出来2.全方位项目拷打基本没有问八股，全部都是项目企业场景题，哎哟我操，完全不会。我就纯八股战士，结果没想到一道八股都没问反正尽可能把企业场景往八股上引吧。。1. 微服务多点部署其中一个宕机了怎么办2. 要是mq占据大量CPU该怎么排查？MySQL占据大量CPU该怎么排查？3. 假如说让你实现视频点赞功能，你打算怎么设计？讲讲思路（我知道多级缓存，但是碰巧没背……寄）4. Redis延迟双删是什么，分布式锁，哨兵模式5. MySQL到es同步的延迟该怎么优化6. Rabbit mq的队列是怎么实现的？（这个完全没整明白，可能是队列的底层结构? 反正我硬扯的讲了一下rabbit mq的架构）还扯了很多，但是往后完全就慌了），记住的是这些

不知道怎么取名字_：2小时确实有压力，持续性的脑力劳动啊

查看9道真题和解析

点赞评论收藏

分享

评论

1

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招/暑实第一面是哪家？ #

2643次浏览 28人参与

# 面试官最爱问的 AI 问题是...... #

1633次浏览 58人参与

# 跟HR说什么能被秒回？ #

1612次浏览 29人参与

# 机械制造面试点评 #

90152次浏览 479人参与

# 如何一边实习一边找下家？ #

1657次浏览 36人参与

# 你的嫡系AI是哪个？ #

803次浏览 28人参与

# 你现在的工作，是“成长”还是“消耗”？ #

3171次浏览 59人参与

# 找不到好工作选择GAP真的丢人吗 #

102295次浏览 1020人参与

# 现在入门AI应该走哪些方向？ #

739次浏览 23人参与

# 金三银四，你的春招进行到哪个阶段了？ #

19476次浏览 264人参与

# 滴滴笔试 #

37931次浏览 215人参与

# 你认为小厂实习有用吗？ #

127429次浏览 701人参与

# 通信硬件公司爆料 #

200230次浏览 550人参与

# 我的岗位说明书 #

316623次浏览 2783人参与

# 你上一次加班是什么时候？ #

139821次浏览 780人参与

# 美团笔试 #

708807次浏览 4690人参与

# AI岗位暴涨12倍，你会转AI赛道吗？ #

7674次浏览 145人参与

# 实习进度记录 #

1218640次浏览 11852人参与

# 职场上哪些行为很加分？ #

339190次浏览 3780人参与

# 小米编程考试 #

32909次浏览 156人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务