1、自我介绍2、介绍强化学习项目状态、动作空间怎么设置的?强化学习算法分为哪几类?PPO是On policy还是off policy?off policy和on policy的区别是什么?off policy相比于on policy有哪些优点和缺点?3、机器学习对哪些机器学习算法比较熟悉?特征怎么选的?lgb超参数怎么调的?特征是越多越好吗?4、实习CPT用了多少数据?什么机器配置?如果训练中途崩溃了模型和数据怎么加载?怎么评估的?SFT什么场景?怎么评估的?baichuan和qwen的区别有哪些?MHA、GQA、MQA的区别?超参怎么调整的?5、手撕MHA