继续来分享下最近的面经~1.PPO算法是用什么框架做训练的,对该框架中相关代码是否了解?2.介绍一下实习2的这个项目的相关情况3.项目中用到的千问3模型,其多模态能力对齐是怎么做的?4.项目中用到的GSPO原理是什么?5.Sequence级别与token级别的强化学习训练有什么区别,各自适用于什么样的训练场景?6.对千问30B-A3B模型的架构是否了解,其中的专家网络具体是怎么做的?7.项目中用到的千问相关模型是否存在上下文相关的问题?8.在RAG系统中,若存在多轮对话的情况,从哪方面提升模型上下文能力?9.抛开实际应用场景,PPO算法的损失包含哪几部分?10.在实际流程中,PPO算法的相对优势是怎么计算的?11.分析PPO算法各部分在流程中的位置以及具体计算方式