快手实习 多模态算法一面分享(好难啊
给我面没招了,发点面经攒攒人品~
1.CLIP的结构+一个batch里面混入了相同的图片,也就是说一个正样本被当作一个负样本,但它实际是一个正样本,怎么去解决和避免这些问题?在训练或者说Loss层面
2.CLIP可以做分类吗?通过对齐的方式做分类你觉得是可行的吗?
图像输入给大模型,解码输出文本,这样的对齐方式和CLIP有什么区别?这两种哪种是未来趋势?
3.COT有了解过吗?结构化的输入/few-shot 为什么会有帮助?(模型层面)
4.有了解过哪些大模型?BLIP2的三个loss介绍
5.现在大部分的结构不采用Q-former,而用MLP,是为什么?那为什么之前不用MLP,而用Q-former?
6.一个多模态模型,它的视觉和文本编码器的参数量大小有什么配比的逻辑?
7.一个5乘5的卷积,它可以由几个3乘3的卷积串联来替换,从而减少计算量但保持感受野不变?
8.分类任务需要很多标注样本,但是现在想在少量样本的情况下,实现新增任务的效果,如何实现?不希望通过大量数据做微调
1.CLIP的结构+一个batch里面混入了相同的图片,也就是说一个正样本被当作一个负样本,但它实际是一个正样本,怎么去解决和避免这些问题?在训练或者说Loss层面
2.CLIP可以做分类吗?通过对齐的方式做分类你觉得是可行的吗?
图像输入给大模型,解码输出文本,这样的对齐方式和CLIP有什么区别?这两种哪种是未来趋势?
3.COT有了解过吗?结构化的输入/few-shot 为什么会有帮助?(模型层面)
4.有了解过哪些大模型?BLIP2的三个loss介绍
5.现在大部分的结构不采用Q-former,而用MLP,是为什么?那为什么之前不用MLP,而用Q-former?
6.一个多模态模型,它的视觉和文本编码器的参数量大小有什么配比的逻辑?
7.一个5乘5的卷积,它可以由几个3乘3的卷积串联来替换,从而减少计算量但保持感受野不变?
8.分类任务需要很多标注样本,但是现在想在少量样本的情况下,实现新增任务的效果,如何实现?不希望通过大量数据做微调
全部评论
qformer退场是面试常考点吗
相关推荐
查看9道真题和解析