视源集团大模型算法校招面经
1. 聊一聊CLIP的检索这块,这个任务的输入这块,这个任务的输入输出是什么?以及改进是什么?
2. 我们为什么还要要求CLIP的相似度矩阵还要关于正对角线对称?
3. CLIP预训练是怎么做的?
4. CLIP预训练的双塔编码器是如何初始化的?
5. ViT的主要架构是什么样子的?encoder还是decoder?
6. 一张图片如何被送入ViT该如何处理?
7. 输入19201080图片,patch size是1414,ViT的token数量应该是多少?
8. 输入224224图片,1414 patch,ViT的token数量该怎么计算?
9. CLIP的文本编码器架构是什么?
10. 询问实习
编程题:使用Python的列表,实现一个栈(不使用deque)
2. 我们为什么还要要求CLIP的相似度矩阵还要关于正对角线对称?
3. CLIP预训练是怎么做的?
4. CLIP预训练的双塔编码器是如何初始化的?
5. ViT的主要架构是什么样子的?encoder还是decoder?
6. 一张图片如何被送入ViT该如何处理?
7. 输入19201080图片,patch size是1414,ViT的token数量应该是多少?
8. 输入224224图片,1414 patch,ViT的token数量该怎么计算?
9. CLIP的文本编码器架构是什么?
10. 询问实习
编程题:使用Python的列表,实现一个栈(不使用deque)
全部评论
相关推荐
