已知该 VLTransformer 仅使用 Cross-Attention 进行融合,没有引入 CLIP 风格的对比学习损失,且在增大 Cross-Attention 层数与加入模态 type-embedding 后效果仍弱。图文对齐任务效果显著差于 CLIP,其核心架构缺陷在于:
未使用对比损失约束多模态空间
跨模态注意力层数不足
图像分块(Patch)未与文本Token对齐
位置编码未区分模态类型
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题