同花顺LLM算法实习二面分享
攒人品中!!!
1.PPO算法是用什么框架做训练的,对该框架中相关代码是否了解?
2.介绍一下实习2的这个项目的相关情况
3.项目中用到的千问3模型,其多模态能力对齐是怎么做的?
4.项目中用到的GSPO原理是什么?
5.Sequence级别与token级别的强化学习训练有什么区别,各自适用于什么样的训练场景?
6.对千问30B-A3B模型的架构是否了解,其中的专家网络具体是怎么做的?
7.项目中用到的千问相关模型是否存在上下文相关的问题?
8.在RAG系统中,若存在多轮对话的情况,从哪方面提升模型上下文能力?
9.抛开实际应用场景,PPO算法的损失包含哪几部分?
10.在实际流程中,PPO算法的相对优势是怎么计算的?
11.分析PPO算法各部分在流程中的位置以及具体计算方式
1.PPO算法是用什么框架做训练的,对该框架中相关代码是否了解?
2.介绍一下实习2的这个项目的相关情况
3.项目中用到的千问3模型,其多模态能力对齐是怎么做的?
4.项目中用到的GSPO原理是什么?
5.Sequence级别与token级别的强化学习训练有什么区别,各自适用于什么样的训练场景?
6.对千问30B-A3B模型的架构是否了解,其中的专家网络具体是怎么做的?
7.项目中用到的千问相关模型是否存在上下文相关的问题?
8.在RAG系统中,若存在多轮对话的情况,从哪方面提升模型上下文能力?
9.抛开实际应用场景,PPO算法的损失包含哪几部分?
10.在实际流程中,PPO算法的相对优势是怎么计算的?
11.分析PPO算法各部分在流程中的位置以及具体计算方式
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
