被横向挂了,希望发出来对大家有帮助!八股:1.RMSNorm2.Adamw和Adam的区别,好处是什么3.transformer的效率优化的地方,介绍以下KV cache4.你还了解哪些多模态大模型?5.Transformer有几个残差连接,分别在哪?6.pre-norm和post-norm的区别7.Lora的原理;矩阵的秩怎么取;矩阵如何初始化;会引入额外的耗时吗?其它的参数高效微调方法1.双塔模型的了解;clip的损失函数;clip为什么效果好;基于clip的工作2.clip相比llava这种全交互结构,差别在哪里?性能差异大吗?为什么?如果llava没有超过clip,是什么原因?3.clip和llava的图像编码器有区别吗?4.Qwen的训练流程,每一步的训练数据差别,为什么三阶段而不是二阶段手撕:零钱兑换