首页 > 试题广场 >

假设一个大模型 Agent 在解决数学推理任务时采用 “反思

[单选题]
假设一个大模型 Agent 在解决数学推理任务时采用 “反思 - 修正” 机制…若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?
  • 最大化 R 与 A1 的语义相似度
  • 最大化 A2 与真实答案 G 的匹配度,同时最小化 |A1 − A2|
  • 最小化 A1 与 A2 的计算开销差异
  • 最大化 A1 与真实答案 G 的匹配度

这道题你会答吗?花几分钟告诉大家答案吧!