1. 必须熟悉 DDPG 、 PPO 、 TD3 、 SAC 等算法的原理和区别。 这四种算法是连续控制(如机器人控制)中最常用的深度强化学习算法。 PPO (Proximal Policy Optimization) 原理:PPO是一种同策略(On-policy)的策略梯度算法。它使用截断(Clipping)机制限制新旧策略的更新步长,防止策略更新“翻车”。 核心公式: 数值计算示例: 假设在时间步 ,GAE计算出的优势函数 (正数,说明这个动作很好)。 设定截断超参数 。 如果新网络过于激进,导致新旧策略概率比 (新策略采用该动作的概率是旧策略的1.5倍): 原始目标: ...