首页 > 试题广场 >

已知该 VLTransformer 仅使用 Cross-At

[单选题]

已知该 VLTransformer 仅使用 Cross-Attention 进行融合，没有引入 CLIP 风格的对比学习损失，且在增大 Cross-Attention 层数与加入模态 type-embedding 后效果仍弱。图文对齐任务效果显著差于 CLIP，其核心架构缺陷在于：

未使用对比损失约束多模态空间

图像分块（Patch）未与文本Token对齐

查看答案及解析

lvy0331

我没招了

发表于今天 18:25:04 回复(0)

提交观点

问题信息

大模型开发

难度：

1条回答 77收藏 37浏览

扫一扫，把题目装进口袋