影石 AI Agent 开发二面

1、生图 Agent 的模型是什么？

生图 Agent 一般不是单一模型直接完成所有事情，而是一套组合式链路。核心生成模型通常是文生图模型，比如 Diffusion 类模型，负责真正把文本描述转成图像。前面会有一个 LLM 负责理解用户需求、补全提示词、做风格约束、拆分子任务，后面还可能接图像评估模型、审核模型和重写模块。

如果场景更复杂，比如“先理解需求，再生成多版图片，再筛选最佳图”，那 Agent 的结构一般是：

LLM 负责意图理解、Prompt 改写、参数规划
文生图模型负责出图
评估模型负责打分、筛图
审核模块负责安全过滤
工作流层负责多轮迭代和状态管理

所以生图 Agent 不是单模型，而是 LLM + 生图模型 + 评估/审核 + 工作流编排 的组合。

2、你做的 Prompt 优化策略可以保证对所有模型都有提升吗？

不能保证。Prompt 优化通常和模型本身的能力、指令跟随性、上下文窗口、训练语料、输出风格强相关，所以一个在 A 模型上有效的 Prompt，不一定在 B 模型上也同样有效。

有些模型更擅长严格遵循格式要求，有些模型更擅长开放式生成；有些模型对少样本示例很敏感，有些模型对系统提示更敏感。所以 Prompt 优化通常是 模型相关 的，不是一次优化到处通用。

更稳的做法一般是：

先沉淀一版通用 Prompt 框架
再针对不同模型做差异化调优
最后通过离线评测和线上 A/B 验证效果

也就是说，Prompt 优化可以提升很多模型，但不能保证对所有模型都同幅度提升，更不能保证一定提升。

3、需要生图多样性的场景，是通过预设规则判断还是通过 LLM 判断？

一般是规则和 LLM 结合，不会只靠单一方式。规则适合处理强约束场景，比如用户明确说“来 4 张不同构图”“同一主题换 3 种风格”，这类关键词识别可以直接走规则，稳定且便宜。LLM 更适合处理隐含需求，比如用户虽然没明确说“多样性”，但表达里带有“多给我几个方向”“想看看不同视觉方案”，这时候让 LLM 做语义判断更灵活。

线上更常见的做法是：

先用规则做高精度命中
规则没命中的，再让 LLM 做补充判断
最后由工作流控制出图张数、风格扰动和采样策略

这样既能保证稳定性，也不会把所有判断都压到模型上。

4、有对模型参数做过调优吗，比如 temperature？

做过。像 temperature、top_p、max_tokens、frequency penalty 这些参数都会影响生成效果。temperature 主要控制随机性，数值越低输出越稳定，越高输出越发散。生图或创意类任务一般会适当提高随机性，让结果更多样；结构化抽取、路由判断、工具调用这类任务通常会把 temperature 调低，优先保证稳定性。

如果是生图 Agent，常见思路是：