一面自我介绍项目+论文为啥项目中使用Ptuning?说一下Ptuning的原理如何关注训练过程中的指标? 训练步数如何确定?RLHF的整个流程详细llama factory代码看过吗?DPO了解吗?算法题 二分,medium, 旋转数组的最小数字二面二面面试官问了很多开放性问题,就是丢给你一个一个问题/实际的步骤,问你怎么解决,怎么考虑,而不是问某某东西的原理自我介绍项目训练大模型的数据如何弄的?RLHF的三个流程中你觉得哪个应该是最重要的?为什么?为啥RLHF中要用PPO?和其他RL算法的区别?为什么需要Rewar model?Reward model 如何训练?Reward model 你...