首页 > 试题广场 >

当观察到大型Transformer模型在长文本推理时出现上下

[单选题]
当观察到大型Transformer模型在长文本推理时出现上下文丢失现象,最可能由什么架构限制引起?
  • 位置编码外推失效
  • 残差连接梯度消失
  • 前馈网络宽度不足
  • 层归一化计算误差累积
位置编码外推失效是Transformer模型在长文本推理中出现上下文丢失的最常见架构限制
发表于 2026-04-10 22:08:02 回复(0)