程序员花海

今天 11:53 复旦大学 Java 发布于上海

关注

都在找Agent开发，我整理了80道相关的Agent开发面试题。

大家好，我是@程序员花海，之前出过2篇完整从后端转Agent开发的学习路线，也收到了广大牛友的好评，感谢支持！

不过首先声明一点，要不要转Agent开发完全按照自己的判断和市场上岗位的需求来决定，我只是单纯分享学习心得。

我是从24年的时候开始系统落地Agent，那个时候岗位还没有现在这么多，接触这方面也是业务调整，现在AI coding越来越普及，甚至很多公司的岗位纯后端业务开发放出来的已经很少了。

也看到很多牛友焦虑说后端开发不行了怎样，其实不必要焦虑过多，你像拼多多始终不碰AI，人家不是也好好的么？

Agent开发还是以后端架构那一套为基础，再加一些相关的内容，因此学习路线上来说还是先学后端，再在简历上补充个Agent的相关工作经验。

我结合自己在开发落地过程中的思考，总结了一些相关的面试题和场景题，有需要的牛友可一起讨论下。

一、流式输出

前端实现大模型流式输出，SSE与WebSocket选型逻辑是什么？各自优缺点、适用场景（结合高并发、跨端兼容）？
流式返回过程中网络中断、前端重连，后端如何恢复上下文继续输出？如何避免重复输出、丢包？
用户点击“停止生成”，后端如何立即终止LLM推理、释放GPU/CPU资源？如何避免资源泄露？
流式返回时，如何插入非文本事件（工具调用标记、思考过程、错误提示、分段标识），且不影响前端渲染？
多轮对话+流式输出，如何保证消息不乱序、上下文不丢失？跨服务流式透传（Java/Go后端+Python模型服务）如何实现？
高并发下（QPS≥1000），大量SSE长连接如何做连接复用、心跳检测、超时释放？避免OOM的核心优化点？
流式输出场景中，如何实现内容安全实时截断（检测到敏感词立即停流、清理上下文）？
流式返回时，如何精准统计Token消耗（逐段统计、总消耗汇总），适配计费场景？
小程序、APP、PC端对流式输出的兼容性差异如何处理？如何解决部分端流式渲染卡顿问题？
流式推理时，LLM模型报错（如中途断连），如何设计兜底策略，保证用户体验？
如何实现流式输出的“断点续打”？用户刷新页面后，如何恢复之前未完成的流式内容？
跨服务流式透传时，如何做日志埋点（每段输出、耗时、异常），支撑全链路追踪？

二、Agent核心原理

Agent执行环路（Plan→Act→Observe→Reflect）在生产中如何落地？各环节的异常处理（如Act失败、Observe无结果）如何设计？
ReAct框架在实际开发中，如何避免“思考与行动脱节”？如何优化Reason步骤的准确性？
Agent工具调用的Schema设计核心是什么？如何保证LLM正确选择工具、传递正确参数（避免参数缺失、类型错误）？
多步工具依赖（如“查用户→查订单→查物流”），如何设计依赖管理、避免重复调用、死循环？
Agent的反思机制（Reflection）如何实现？如何让Agent从执行失败中学习，优化下一轮决策？
Agent的短期记忆、长期记忆如何设计存储结构？如何平衡记忆容量与查询速度？
高并发场景下，Agent任务排队、限流、优先级调度如何实现？（结合实际业务场景，如付费用户优先）
Agent调用工具超时，如何设计重试策略、熔断机制、降级方案？兜底回复如何设计才不生硬？
Agent生成的SQL/代码需要执行，如何设计沙箱环境、权限隔离，避免越权操作、注入攻击？
LangChain、LangGraph在生产中如何选型？LangGraph的状态机设计，如何适配复杂业务流程（如审批、工单）？
Agent执行过程如何做可观测？每一步的思考、工具调用、耗时、Token消耗、异常，如何全链路追踪？
多个用户同时触发同一个Agent任务，如何做幂等设计，避免重复执行（如重复查询数据库、调用接口）？
Agent如何安全传递用户身份（登录态、权限），调用工具时避免身份泄露、越权？
如何实现Agent执行过程的可回放、可打断、可人工干预？（落地场景：客服Agent出错时人工接管）
Agent的任务分解能力如何优化？如何让Agent正确拆分复杂任务（如“写方案→查资料→改初稿”）？
开源Agent框架（LangChain、AutoGen、MetaGPT）在生产中落地的坑有哪些？如何规避？
Agent与现有后端系统（Java/Go）对接，如何保证接口调用的稳定性、一致性？
如何评估Agent的任务完成率？生产中如何统计Agent的成功率、错误率、步骤合理性？

三、RAG生产落地痛点题

百万级文档RAG，检索延迟要求<200ms，如何设计索引、分片、缓存架构？（结合Milvus/Chroma实际部署）
文档频繁更新/删除，向量库如何保证实时一致性？如何避免召回旧知识、脏数据？
同一用户同一问题多次查询，如何做检索结果缓存？如何处理“缓存过期”与“新知识更新”的矛盾？
用户问题模糊（如“查一下最近的订单”），如何做意图识别+查询改写+多路召回，提升召回率？
表格、带格式PDF、图片文本的RAG，如何处理才能不丢失结构信息（如表格行列关系、PDF排版）？
长文档（10w字+）RAG出现“中间内容丢失”，如何用父子分块、分层检索、重排序解决？
混合检索（稀疏+稠密）在生产中如何调参？如何平衡召回率与检索速度？
RAG与多轮对话结合，如何实现“基于历史上下文的自动检索”？避免重复检索、无效检索？
如何避免RAG检索到大量无关片段，导致LLM回答跑偏？（落地优化手段）
生产环境如何自动化评估RAG效果？（召回率、MRR、Answer Relevancy的实操方案）
Embedding模型如何选型？中英文文档混合场景，如何选择合适的Embedding模型，平衡效果与速度？
向量检索中，余弦相似度、点积、欧氏距离的实际应用差异？如何选择？
RAG的rerank重排环节，如何选择重排模型？如何优化重排速度？
动态知识更新场景（如每日新增文档），RAG如何设计增量更新机制，避免全量重新向量化？
如何处理RAG中的噪声文档（如无效文档、重复文档）？如何做文档去重、过滤？
RAG服务高并发下，如何做负载均衡、水平扩展？
RAG与Fine-tuning在生产中如何选型？什么场景下优先用RAG，什么场景下需要微调？
如何解决RAG的“检索滞后”问题？（如文档更新后，检索结果不能及时更新）

四、LLM工程化与高并发、稳定性

峰值QPS 100+的LLM接口，如何做排队、削峰、批量推理、优先级调度？（结合vLLM/TGI实操）
LLM推理加速方案（vLLM、TGI、TensorRT-LLM）的原理与落地差异？如何选择？
模型量化（INT8/INT4/FP8）的原理？生产中如何平衡量化精度与推理速度？量化后的坑如何规避？
模型API突然报错、限流、宕机，后端如何设计熔断机制、切换备用模型？如何保证用户无感知？
如何防止恶意用户构造超长上下文、高频请求，刷Token造成成本暴增？（落地限流、拦截方案）
生产中如何实现多模型调度？（小模型处理简单任务、大模型处理复杂推理）如何设计调度策略？
LLM推理服务GPU资源有限，如何做资源隔离、队列优先级、超时抢占？
异步Agent任务（执行时间>10s）如何设计？（任务状态管理、重试机制、结果通知、落库方案）
如何实现LLM请求全链路压测？如何模拟真实对话流量、流式请求场景？
微服务架构下，AI模块与Java/Go后端如何实现分布式事务、最终一致性？
Agent服务如何高可用部署？多实例、负载均衡、灾备设计的核心要点？
如何做LLM结果、Embedding、检索结果的缓存设计？如何设置缓存过期时间？
日志量巨大（每轮对话10KB+），如何设计存储、检索、审计、降冷方案？（结合ELK实操）
如何做权限控制？（数据权限、工具权限、功能权限）如何避免Agent越权操作？
Docker + K8s部署Agent/LLM服务，需要注意哪些点？（资源配置、健康检查、滚动更新）
MLOps如何应用在Agent系统？（模型版本管理、实验跟踪、CI/CD流水线落地）

五、安全、成本与架构设计

Prompt Injection攻击的原理与生产级防御方案？（结合实际落地的防御性Prompt、拦截机制）
如何防止敏感信息（用户手机号、订单号）进入LLM，造成数据泄露？（脱敏方案实操）
生产中如何控制Token消耗与模型成本？（限流、缓存、模型选型、批量推理等组合方案）
私有部署vs API调用如何选型？各自的成本、稳定性、安全性对比？落地场景是什么？
如何保证Agent行为可解释、可审计、可回溯？（日志设计、链路追踪、行为记录）
设计一个企业内部知识库问答Agent，架构图+核心流程+性能优化点？（落地级设计）
设计一个Text2SQL Agent，如何解决SQL注入、表结构识别、复杂查询（多表关联）问题？
设计一个客服多Agent系统，如何实现意图识别、知识库检索、工单生成、人工转接的无缝衔接？
设计一个低延迟、高并发的RAG服务，核心架构与性能优化点？（结合百万级文档场景）
如何设计多Agent协作系统？（分工、通信、调度、冲突解决）结合内容创作场景实操？
从后端工程师角度，如何搭建可上线的Agent平台？（核心模块、技术选型、工程化保障）
如何做输出内容审核、毒性检测？如何避免Agent生成违规、不当内容？
灾备设计：主模型/主服务挂了，如何自动切换到备用，不影响用户体验？（落地流程）
设计一个自动化运维Agent，如何实现日志读取、问题定位、命令执行、异常提醒？
多模型服务网格如何设计？如何实现模型的动态切换、负载均衡、健康检查？
如何处理Agent执行过程中的“长尾任务”（执行时间长、资源消耗大）？如何优化性能、控制成本？

暂时按照这些方面来整理，其实Agent开发和传统的后端开发一样，也是面试造火箭工作拧螺丝，这些问题基本上是我觉得从面试角度来看需要好好准备的，重点是RAG这部分，要多花时间去看下，之后的每一期我也会带上一些学习资源，希望大家一起努力，应对复杂多变的市场环境！

#AI面会问哪些问题？##找AI工作可以去哪些公司？##从事AI岗需要掌握哪些技术栈？##你做过最难的笔试是哪家公司#

全部评论

推荐最新楼层

程序员花海

楼主

复旦大学 Java

牛友们有相关的面试题和面试经验也可以留在评论区哦

1 回复分享

发布于今天 11:55 上海

程序员花海

楼主

复旦大学 Java

1.全网最全Agent开发学习路线：https://www.nowcoder.com/discuss/864821937527128064?sourceSSR=users 2.关于Agent开发，聊聊我的看法：https://www.nowcoder.com/discuss/863343452015112192?sourceSSR=users

点赞回复分享

发布于今天 11:55 上海

昨天 13:32

广东工业大学 C++

今天正式提离职了

去年12月份进来🍠实习，当时想着没其他offer就先接了，进来做了四个月的iOS期间也一直在学习后端知识尝试面试，均以失败告终最终还是太高看自己了，实在是没有能力去两头搞，也看到了很多网上关于客户端发展的帖子，最终决定还是辞职all in暑期实习了遥想去年刚进来的时候，只要有实习啥都能干现在觉得挺累的，可能和预期的实习工作不匹配吧不管怎么样还是感谢所有组内帮助过我的老哥没有他们我的第一份实习不知道什么时候才能到来后续有缘再见

点赞评论收藏

03-26 14:02

北京邮电大学 Java

JDY已拿offer

27届北邮本，JDY已拿offertimeline3.13约一面3.13一面3.16约二面3.17二面3.19约三面3.24三面3.25 oc3.26 offer

点赞评论收藏

03-26 02:40

湘潭大学前端工程师

即将迎来史上最严峻四月

下周开始我要白天上班偷产出晚上下班练算法有空就去学 ai五月我要进大厂

裘某人：同状态，加油

点赞评论收藏

03-25 19:33

郑州轻工业大学 Java

字节简历秒挂……不到半小时，道心破碎了？

我是犯天条了吗？大佬们

肥肠椒绿：双非本可不就犯天条了，双非本就应该打入无间地狱

点赞评论收藏

昨天 22:42

南京大学 Java

牛客网你tm用的哪个时区的时间

点赞评论收藏

招聘动态

联想

27届暑期实习

奥克斯集团

2026春季校园招聘

鹏芯微

2026届校园招聘

小米集团

2026届春季校园招聘

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

AI网申助手

网申字段一键填写

恒生电子

2026届春季校园招聘

27届校招宝典

全站热榜

1

... 双非选手的求职的感悟

2758
2

... 美团暑期实习一面

2735

美团笔试好难

热聊中

3

... 阿里笔试竟然考了AI提示词。。。

2108
4

... 暑期结束，拥抱腾讯了

1683

中国电信328笔试

热聊中

创作者周榜

正在热议

# 投递几十家公司，到现在0offer，大家都一样吗 #

# 金三银四，你的春招进行到哪个阶段了？ #