1. 全参数微调的显存一般怎么估算全参数微调的显存不能只看模型参数本身,真正上线训练时至少要把参数、梯度、优化器状态和激活值都算进去。最粗略的估算方式是:如果模型参数量是 N,训练精度是 bf16,那么参数大约占 2N 字节,梯度再来一份 2N,如果用 Adam,还要额外保存两组一阶和二阶矩,通常再加 4N + 4N 字节。也就是说,不考虑激活值时,单参数相关内存大致可以按 12N ~ 16N 字节估。真正把 batch size、sequence length、checkpointing、并行策略加进去后,激活值往往才是大头。所以面试里如果只答“参数量乘 2”基本不够。更稳的答法是先给出静态...