摘要:长思维链(CoT)显著增强了大型语言模型(LLM)的推理能力。然而,广泛的推理痕迹导致了效率低下以及首次输出时间(Time-to-First-Token,TTFT)的增加。我们提出了一种新颖的训练范式,利用强化学习(RL)指导推理型LLM在多跳问题中交替进行思考和回答。我们观察到,模型本身具备交替推理的能力,这种能力可以通过强化学习进一步增强。我们引入了一种简单而有效的基于规则的奖励机制,以激励正确的中间步骤,该机制通过利用交替推理过程中生成的中间信号,引导策略模型走向正确的推理路径。我们在五个多样化的数据集和三种强化学习算法(PPO、GRPO和REINFORCE++)上进行了广泛的实...