咱们今天聊点大模型训练里的“工具箱”——分组查询注意力(GQA)、自回归语言模型(AR-LM)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)。这些技术就像“造大模型”的“工具包”,各有各的用场,是当今大模型时代的基石。一、分组查询注意力(GQA):大模型的“作业分组小能手”你有没有试过,全班50个人一起做数学题,每个人都要和另外49个人对答案?这叫“全连接注意力”(传统Transformer的注意力机制),计算量爆炸(O(n²))!GQA(Grouped Query Attention,分组查询注意力)就像老师说:“你们分成5组,每组10人,组内互相核对答案,组间不用管!”——把查...