1. 如果想要在某个模型基础上做全参数微调,究竟需要多少显存?这个问题不能只看模型参数量,还得把训练时真正占显存的几部分一起算进去。全参数微调时,显存通常会被下面这些东西吃掉:模型参数本身梯度优化器状态前向传播保存的激活值CUDA 运行时和框架缓存如果用的是 AdamW 这类优化器,除了参数之外,还要额外维护一阶矩和二阶矩,所以训练显存会明显高于推理显存。一个比较粗糙但实用的经验是:全参数微调的显存,往往是模型权重显存的 6 到 12 倍左右,具体还得看序列长度、batch size、是否开 gradient checkpointing、是否做 ZeRO/FSDP 分片。拿 7B 模型举例,F...