首页 > 试题广场 >

已知该 VLTransformer 仅使用 Cross-At

[单选题]

已知该 VLTransformer 仅使用 Cross-Attention 进行融合,没有引入 CLIP 风格的对比学习损失,且在增大 Cross-Attention 层数与加入模态 type-embedding 后效果仍弱。图文对齐任务效果显著差于 CLIP,其核心架构缺陷在于:

  • 未使用对比损失约束多模态空间
  • 跨模态注意力层数不足
  • 图像分块(Patch)未与文本Token对齐
  • 位置编码未区分模态类型
我没招了
发表于 今天 18:25:04 回复(0)