影石 AI Agent 开发 二面

1、生图 Agent 的模型是什么?

生图 Agent 一般不是单一模型直接完成所有事情,而是一套组合式链路。核心生成模型通常是文生图模型,比如 Diffusion 类模型,负责真正把文本描述转成图像。前面会有一个 LLM 负责理解用户需求、补全提示词、做风格约束、拆分子任务,后面还可能接图像评估模型、审核模型和重写模块。

如果场景更复杂,比如“先理解需求,再生成多版图片,再筛选最佳图”,那 Agent 的结构一般是:

  • LLM 负责意图理解、Prompt 改写、参数规划
  • 文生图模型负责出图
  • 评估模型负责打分、筛图
  • 审核模块负责安全过滤
  • 工作流层负责多轮迭代和状态管理

所以生图 Agent 不是单模型,而是 LLM + 生图模型 + 评估/审核 + 工作流编排 的组合。

2、你做的 Prompt 优化策略可以保证对所有模型都有提升吗?

不能保证。Prompt 优化通常和模型本身的能力、指令跟随性、上下文窗口、训练语料、输出风格强相关,所以一个在 A 模型上有效的 Prompt,不一定在 B 模型上也同样有效。

有些模型更擅长严格遵循格式要求,有些模型更擅长开放式生成;有些模型对少样本示例很敏感,有些模型对系统提示更敏感。所以 Prompt 优化通常是 模型相关 的,不是一次优化到处通用。

更稳的做法一般是:

  • 先沉淀一版通用 Prompt 框架
  • 再针对不同模型做差异化调优
  • 最后通过离线评测和线上 A/B 验证效果

也就是说,Prompt 优化可以提升很多模型,但不能保证对所有模型都同幅度提升,更不能保证一定提升。

3、需要生图多样性的场景,是通过预设规则判断还是通过 LLM 判断?

一般是规则和 LLM 结合,不会只靠单一方式。规则适合处理强约束场景,比如用户明确说“来 4 张不同构图”“同一主题换 3 种风格”,这类关键词识别可以直接走规则,稳定且便宜。LLM 更适合处理隐含需求,比如用户虽然没明确说“多样性”,但表达里带有“多给我几个方向”“想看看不同视觉方案”,这时候让 LLM 做语义判断更灵活。

线上更常见的做法是:

  • 先用规则做高精度命中
  • 规则没命中的,再让 LLM 做补充判断
  • 最后由工作流控制出图张数、风格扰动和采样策略

这样既能保证稳定性,也不会把所有判断都压到模型上。

4、有对模型参数做过调优吗,比如 temperature?

做过。像 temperature、top_p、max_tokens、frequency penalty 这些参数都会影响生成效果。temperature 主要控制随机性,数值越低输出越稳定,越高输出越发散。生图或创意类任务一般会适当提高随机性,让结果更多样;结构化抽取、路由判断、工具调用这类任务通常会把 temperature 调低,优先保证稳定性。

如果是生图 Agent,常见思路是:

  • 需求理解、参数抽取、工具路由:temperature 低一点
  • Prompt 扩写、风格发散、创意描述:temperature 可以适当高一些
  • 结果总结、格式化输出:temperature 继续压低

所以调参不是为了“统一调大或调小”,而是根据任务类型做分场景配置。

5、如何评估生图准确性?

生图准确性不能只看“好不好看”,更重要的是“和用户意图符不符合”。通常会分几层评估。

第一层是语义一致性,也就是图里有没有把用户要求的主体、动作、场景、风格表达出来。第二层是图像质量,比如清晰度、构图、畸变、细节缺失。第三层是可用性,比如是否存在违规内容、是否符合业务要求、是否方便后续投放或编辑。

如果做体系化评估,常见方法有:

  • 人工标注打分,看图文一致性、风格匹配度、可接受率
  • 用多模态模型做图文对齐打分
  • 做 pairwise 比较,看优化前后哪一版更符合需求
  • 统计一次生成成功率、二次重试率、用户采纳率

真正线上最关键的指标通常不是单一模型分数,而是用户是否满意、是否继续追改、是否直接使用生成结果。

6、上下文记忆架构是为了解决什么问题?

上下文记忆架构主要解决三个问题:多轮连续性、长期信息保留和上下文成本失控。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

泥给路哒油:真的不行了,以后趋势就是没有前后端职位之分了,我现在就是什么都干,有了ai就能干全栈,md年初目送一大堆同事毕业
点赞 评论 收藏
分享
今天周一休息,突发奇想写一篇阶段总结。如题,我已经去了一个和Java彻底毫无关联的行业。曾经我以为自己能在计算机行业发光发热,没想到刚入行一年多就当了逃兵。从最开始的热爱到现在一看到代码就厌恶,不知道自己经历了什么。所以我去干什么了?答案是:在成都当了租房销售。上班那会压力大了就念叨着去干租房中介,但是一直下不去这个决心,想着自己学了四年多的计算机知识,终究还是不甘心。终于在某一天准备八股文的时候,看着无数篇和工作内容关系不大的理论知识,那一刻下定决心,决定尝试一下销售行业,也算是给自己一个交代。后面阴差阳错的投了成都自如去当租房管家,没想到面试很顺利,在当天一百多个面试的人里面,我成为了为数不多通过的几个幸运儿之一。目前已经培训通过,正式入职,也开了单,也有压力但是每天过得很开心,真心喜欢那种和人交流的感觉,哪怕是最后没有选择找我租房。说这些也是想告诉那些大三,大四正在找Java实习而焦虑的同学:你们现在还年轻,选择很多,容错率也很高,可以尽情去尝试自己喜欢的行业和工作。不用因为某一次的面试没通过或者简历石沉大海而焦虑,更不用因为身边人都在挤编程的独木桥就强迫自己跟风。也算是自己的碎碎念吧,也希望自己能在新的领域取得一点小成就。也祝牛油工作顺利!
许愿面试顺利的小白很...:ai来了,如果有天赋的话,销售真的是个很好的工作
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
正在热议
更多
# 长得好看会提高面试通过率吗? #
4363次浏览 47人参与
# 离家近房租贵VS离家远但房租低,怎么选 #
16917次浏览 137人参与
# 米连集团26产品管培生项目 #
7370次浏览 226人参与
# 沪漂/北漂你觉得哪个更苦? #
1616次浏览 41人参与
# 你的实习产出是真实的还是包装的? #
3196次浏览 53人参与
# 春招至今,你的战绩如何? #
16021次浏览 146人参与
# MiniMax求职进展汇总 #
25244次浏览 322人参与
# HR最不可信的一句话是__ #
1107次浏览 32人参与
# AI面会问哪些问题? #
971次浏览 24人参与
# 你做过最难的笔试是哪家公司 #
1306次浏览 23人参与
# AI时代,哪个岗位还有“活路” #
2930次浏览 53人参与
# 不考虑薪资和职业,你最想做什么工作呢? #
152945次浏览 889人参与
# 简历第一个项目做什么 #
32180次浏览 363人参与
# 军工所铁饭碗 vs 互联网高薪资,你会选谁 #
8029次浏览 43人参与
# XX请雇我工作 #
51164次浏览 171人参与
# 简历中的项目经历要怎么写? #
311119次浏览 4271人参与
# 投格力的你,拿到offer了吗? #
178382次浏览 891人参与
# 你最满意的offer薪资是哪家公司? #
77008次浏览 375人参与
# AI时代,哪些岗位最容易被淘汰 #
64819次浏览 891人参与
# 当下环境,你会继续卷互联网,还是看其他行业机会 #
187635次浏览 1123人参与
# 你怎么看待AI面试 #
180882次浏览 1318人参与
# 正在春招的你,也参与了去年秋招吗? #
364407次浏览 2642人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务