自我介绍项目deepspeed zero 的三个状态?1b 的模型需要多少显存?16G。模型2g,梯度2g,优化器状态4g+4g(以adam为例,一阶动量32位和二阶动量32位)。如果有32位的模型参数的备份,就还有4g。一共2+2+4+4+4=16g。adam 优化器的形式?Adam优化器中:一阶矩估计:用于引入动量,使参数更新具有“惯性”,加速收敛,同时平滑梯度,减少噪声影响,让参数更新更稳定。二阶矩估计:通过衡量梯度方差,自适应调整各参数维度的学习率,使不同维度都能以合适速度更新,还能有效处理稀疏梯度问题。dpo ppo grpo的区别?为什么用llava 不用qwen-vl?在图文检索...