1.为什么用 sft ,不用强化学习?能不能直接强化学习?2.为什么要用强化学习对齐, SFT 为什么不能对齐?3.为什么要微调,提示词不行吗?(针对金融项目 lora 微调)4.vllm显存占用是怎样的?观察哪些 vllm 的指标来优化显存的?5.大模型 lora 训练时需要设置哪些参数?6.训练时观察的指标有什么?如何知道是过拟合,欠拟合?7.如何训练的?一次训练好的吗?8.Flash attention , page attention 原理。9.强化学习有自己训练过吗?10.算法手撕:中序遍历二叉树📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。