面试大模型岗位时，如何回答「你从 0 预训练过模型吗？」

针对大模型岗位，或者说针对基座模型研究的岗位，面试的时候，有被问过“你有没有做过模型的预训练？”可能很多人会很骄傲的说，我微调过，什么LoRA啥的，但其实这些都不是加分项。

面试官真正想听的，也不是你烧过多少钱的GPU，而是：你是否知道训练过程中会遇到哪些坑，以及你是怎么解决的。

预训练其实没有想象中那么贵

放在几年前有BERT或者GPT-1的时候，其实预训练成本不高，哪怕放在现在，很多人以为预训练动辄几十万成本，其实完全没必要。

以常见的A100 / A800（80GB显存）为例，现在云算力平台的价格大约在5～10元 / 小时。如果按6元计算，一天满负荷运行大概144元，一个月也就四千多块钱。

如果只是为了跑通完整的训练流程，这个成本已经足够了。甚至如果你想体验分布式训练，也可以租几张更便宜的GPU组成小规模集群。

本质上，你是在用几千块钱换一份非常稀缺的工程经验，这个投入产出比其实非常高。

一张 GPU 能训练多大模型

很多人关心另一个问题：一张80GB 显存的GPU到底能训练多大的模型？

很多人会直觉认为模型参数本身占用显存最多，但其实训练过程中显存的主要开销来自另外几部分，比如梯度、优化器状态以及激活值。

如果使用AdamW + BF16训练，一个常见的经验值是：1B参数模型大约需要20GB显存。

因此在不做优化的情况下，80GB显存大概能训练3B～4B模型。如果使用梯度检查点、混合精度或优化器offload等技术，上限通常可以提升到6B～7B。

这个规模其实已经非常有价值了。7B模型正是目前开源社区最活跃、私有化部署最常见的尺寸，在这个级别下模型已经能涌现出相当不错的能力，也足够把预训练的完整流程跑一遍。

真正的经验不是把代码跑起来

很多人会犯一个典型错误：在GitHub上找一个训练框架，把代码跑起来，看着loss下降，然后觉得自己做过预训练。

这其实不叫经验，这叫烧电费。

真正的经验，是当别人问你这些问题时，你能清楚回答出来：学习率怎么设置，warmup需要多少步，为什么这样设计？训练的吞吐量是多少，tokens/s和MFU是否合理？数据来源如何配比，数据清洗质量如何评估？checkpoint多久保存一次，训练中期loss下降变慢是正常收敛还是需要调整学习率？

还有一些更细节的问题，比如BF16和FP16混合精度的稳定性问题、什么时候会出现数值溢出、如何监控训练异常等。

这些问题在论文里很少展开讲，博客里也常常一笔带过，但在真正的工程实践中却非常关键。面试官之所以喜欢问这些问题，就是因为它们最能区分出一个人是真的做过训练，还是只看过资料。

如果只有一个月，该怎么练

如果真的想积累一次完整的预训练经验，一个月的时间其实已经足够。大致可以分成三个阶段：数据准备、流程跑通、训练与评估。

第一周主要做数据工程。很多人以为做预训练的人每天都在看论文、设计新算法，但在大厂里，大量时间其实都花在数据处理上。数据是模型能力的地基，地基不牢，上层能力就很难稳定。

这一周你可以亲手完成一次数据清洗流程，比如去重、分词和数据配比。尤其是去重这一环节非常重要，因为大模型的记忆能力很强，如果训练数据里有大量重复文本，模型很容易学会复读。用MinHash或SimHash做一遍去重，你会对“数据质量”四个字有完全不同的理解。

第二周的重点是跑通训练流程，同时故意制造一些事故。比如把学习率调大十倍、关闭warmup、或者把batch size调得很小。你很可能会看到著名的loss spike：loss曲线像心电图一样突然飙升。这时候要做的不是慌，而是分析异常发生在哪个batch、梯度是否异常、到底是数据问题还是超参问题。

第三周开始正式训练一个小模型，同时尝试调优不同的学习率、batch size和checkpoint策略。checkpoint太频繁会拖慢训练，太稀疏又会在出问题时损失大量算力。如何在稳定性和效率之间找到平衡，本身就是训练工程的重要经验。

最后一周主要做评估和复盘。训练一个模型并不难，难的是知道它到底好不好。你可以用简单的下游任务做评测，比如文本生成、问答或代码补全，然后对比不同数据配比、不同学习率策略对结果的影响。

这些实验结论，往往就是面试时最有价值的谈资。