📍面试公司:百度 文心一言🕐面试时间:2026.03.18💻面试岗位:大模型RL后训练❓面试问题:自我介绍,教育背景,项目经历项目介绍,基于大语言模型的信号灯控制,问题是什么,如何结合熵,怎么评测,指标结果如何强化学习理论内容,trust-range和PPO的关系PPO是off-policy or on-policy? on-policy为什么会有importance sampling,采样的策略模型和要训练的策略模型有偏差,重要性采样加以修正PPO的clip在优势A 正/负时 限制上/下届,A为正限制上届,A为负限制下届PPO的损失函数怎么计算的?广义优势估计是怎么计算?GAE中lam...