影石 AI Agent 开发 二面

1、生图 Agent 的模型是什么?

生图 Agent 一般不是单一模型直接完成所有事情,而是一套组合式链路。核心生成模型通常是文生图模型,比如 Diffusion 类模型,负责真正把文本描述转成图像。前面会有一个 LLM 负责理解用户需求、补全提示词、做风格约束、拆分子任务,后面还可能接图像评估模型、审核模型和重写模块。

如果场景更复杂,比如“先理解需求,再生成多版图片,再筛选最佳图”,那 Agent 的结构一般是:

  • LLM 负责意图理解、Prompt 改写、参数规划
  • 文生图模型负责出图
  • 评估模型负责打分、筛图
  • 审核模块负责安全过滤
  • 工作流层负责多轮迭代和状态管理

所以生图 Agent 不是单模型,而是 LLM + 生图模型 + 评估/审核 + 工作流编排 的组合。

2、你做的 Prompt 优化策略可以保证对所有模型都有提升吗?

不能保证。Prompt 优化通常和模型本身的能力、指令跟随性、上下文窗口、训练语料、输出风格强相关,所以一个在 A 模型上有效的 Prompt,不一定在 B 模型上也同样有效。

有些模型更擅长严格遵循格式要求,有些模型更擅长开放式生成;有些模型对少样本示例很敏感,有些模型对系统提示更敏感。所以 Prompt 优化通常是 模型相关 的,不是一次优化到处通用。

更稳的做法一般是:

  • 先沉淀一版通用 Prompt 框架
  • 再针对不同模型做差异化调优
  • 最后通过离线评测和线上 A/B 验证效果

也就是说,Prompt 优化可以提升很多模型,但不能保证对所有模型都同幅度提升,更不能保证一定提升。

3、需要生图多样性的场景,是通过预设规则判断还是通过 LLM 判断?

一般是规则和 LLM 结合,不会只靠单一方式。规则适合处理强约束场景,比如用户明确说“来 4 张不同构图”“同一主题换 3 种风格”,这类关键词识别可以直接走规则,稳定且便宜。LLM 更适合处理隐含需求,比如用户虽然没明确说“多样性”,但表达里带有“多给我几个方向”“想看看不同视觉方案”,这时候让 LLM 做语义判断更灵活。

线上更常见的做法是:

  • 先用规则做高精度命中
  • 规则没命中的,再让 LLM 做补充判断
  • 最后由工作流控制出图张数、风格扰动和采样策略

这样既能保证稳定性,也不会把所有判断都压到模型上。

4、有对模型参数做过调优吗,比如 temperature?

做过。像 temperature、top_p、max_tokens、frequency penalty 这些参数都会影响生成效果。temperature 主要控制随机性,数值越低输出越稳定,越高输出越发散。生图或创意类任务一般会适当提高随机性,让结果更多样;结构化抽取、路由判断、工具调用这类任务通常会把 temperature 调低,优先保证稳定性。

如果是生图 Agent,常见思路是:

  • 需求理解、参数抽取、工具路由:temperature 低一点
  • Prompt 扩写、风格发散、创意描述:temperature 可以适当高一些
  • 结果总结、格式化输出:temperature 继续压低

所以调参不是为了“统一调大或调小”,而是根据任务类型做分场景配置。

5、如何评估生图准确性?

生图准确性不能只看“好不好看”,更重要的是“和用户意图符不符合”。通常会分几层评估。

第一层是语义一致性,也就是图里有没有把用户要求的主体、动作、场景、风格表达出来。第二层是图像质量,比如清晰度、构图、畸变、细节缺失。第三层是可用性,比如是否存在违规内容、是否符合业务要求、是否方便后续投放或编辑。

如果做体系化评估,常见方法有:

  • 人工标注打分,看图文一致性、风格匹配度、可接受率
  • 用多模态模型做图文对齐打分
  • 做 pairwise 比较,看优化前后哪一版更符合需求
  • 统计一次生成成功率、二次重试率、用户采纳率

真正线上最关键的指标通常不是单一模型分数,而是用户是否满意、是否继续追改、是否直接使用生成结果。

6、上下文记忆架构是为了解决什么问题?

上下文记忆架构主要解决三个问题:多轮连续性、长期信息保留和上下文成本失控。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务