首页 > 试题广场 >

大语言模型的上下文窗口长度限制主要源于Transformer

[单选题]
大语言模型的上下文窗口长度限制主要源于Transformer的哪个固有特性?
  • 模型层数过多导致梯度不稳定
  • 自注意力机制的计算开销过高
  • 位置编码的表示能力有限
  • 训练数据的覆盖范围不足
上下文窗口 = 大模型一次最多能同时读、能记住、能拿来思考的所有文字总量(用 token 算)。就是模型的一次性记忆上限。而Transformer 自注意力是 O (n²)文本越长计算量爆炸所以必须给一个硬性上限,这个上限就是上下文窗口。
发表于 2026-05-01 12:29:35 回复(0)