字节多模态搜索算法面经分享
被横向挂了,希望发出来对大家有帮助!
八股:
1.RMSNorm
2.Adamw和Adam的区别,好处是什么
3.transformer的效率优化的地方,介绍以下KV cache
4.你还了解哪些多模态大模型?
5.Transformer有几个残差连接,分别在哪?
6.pre-norm和post-norm的区别
7.Lora的原理;矩阵的秩怎么取;矩阵如何初始化;会引入额外的耗时吗?其它的参数高效微调方法
1.双塔模型的了解;clip的损失函数;clip为什么效果好;基于clip的工作
2.clip相比llava这种全交互结构,差别在哪里?性能差异大吗?为什么?如果llava没有超过clip,是什么原因?
3.clip和llava的图像编码器有区别吗?
4.Qwen的训练流程,每一步的训练数据差别,为什么三阶段而不是二阶段
手撕:零钱兑换
八股:
1.RMSNorm
2.Adamw和Adam的区别,好处是什么
3.transformer的效率优化的地方,介绍以下KV cache
4.你还了解哪些多模态大模型?
5.Transformer有几个残差连接,分别在哪?
6.pre-norm和post-norm的区别
7.Lora的原理;矩阵的秩怎么取;矩阵如何初始化;会引入额外的耗时吗?其它的参数高效微调方法
1.双塔模型的了解;clip的损失函数;clip为什么效果好;基于clip的工作
2.clip相比llava这种全交互结构,差别在哪里?性能差异大吗?为什么?如果llava没有超过clip,是什么原因?
3.clip和llava的图像编码器有区别吗?
4.Qwen的训练流程,每一步的训练数据差别,为什么三阶段而不是二阶段
手撕:零钱兑换
全部评论
相关推荐
查看13道真题和解析 点赞 评论 收藏
分享