快手-暑期实习-多模态算法面经 夯爆了

给我面没招了,发点面经攒攒人品~
项目拷打
CLIP部分
1.CLIP的结构+一个batch里面混入了相同的图片,也就是说一个正样本被当作一个负样本,但它实际是一个正样本,怎么去解决和避免这些问题?在训练或者说Loss层面
2.CLIP可以做分类吗?通过对齐的方式做分类你觉得是可行的吗?
3.图像输入给大模型,解码输出文本,这样的对齐方式和CLIP有什么区别?这两种哪种是未来趋势?
偏八股部分
1.COT有了解过吗?结构化的输入/few-shot 为什么会有帮助?(模型层面)
2.有了解过哪些大模型?BLIP2的三个loss介绍
3.现在大部分的结构不采用Q-former,而用MLP,是为什么?那为什么之前不用MLP,而用Q-former?
4.一个多模态模型,它的视觉和文本编码器的参数量大小有什么配比的逻辑?
5.一个5乘5的卷积,它可以由几个3乘3的卷积串联来替换,从而减少计算量但保持感受野不变?
6.分类任务需要很多标注样本,但是现在想在少量样本的情况下,实现新增任务的效果,如何实现?不希望通过大量数据做微调
手撕:经典力扣 全排列
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务