字节多模态搜索算法面经分享

被横向挂了,希望发出来对大家有帮助!
八股:
1.RMSNorm
2.Adamw和Adam的区别,好处是什么
3.transformer的效率优化的地方,介绍以下KV cache
4.你还了解哪些多模态大模型?
5.Transformer有几个残差连接,分别在哪?
6.pre-norm和post-norm的区别
7.Lora的原理;矩阵的秩怎么取;矩阵如何初始化;会引入额外的耗时吗?其它的参数高效微调方法

1.双塔模型的了解;clip的损失函数;clip为什么效果好;基于clip的工作
2.clip相比llava这种全交互结构,差别在哪里?性能差异大吗?为什么?如果llava没有超过clip,是什么原因?
3.clip和llava的图像编码器有区别吗?
4.Qwen的训练流程,每一步的训练数据差别,为什么三阶段而不是二阶段

手撕:零钱兑换
全部评论

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务