Decoder-Only 架构概述 Decoder-Only 模型是预训练语言模型的核心架构之一,仅使用解码器部分的自回归结构生成文本。典型代表包括 GPT 系列、LLaMA 和 GLM。其核心特点是通过自注意力机制和掩码机制实现单向上下文建模,适用于生成式任务。 核心组件与技术 自注意力与掩码机制 Decoder-Only 模型依赖掩码自注意力(Masked Self-Attention),确保每个位置仅能关注当前位置及之前的输入。数学表达为: $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}...