1.项目经历2.模型的 loss 函数前乘以10,会对训练造成什么影响?3.deepseek v3的 rope 实现? deepseek r1的训练过程?4.做过 rag 是吗?介绍 graph rag ?5.bge 和 gte 模型怎么训练的?为什么不能直接用 bert - base 来做余弦相似度召回?6.对比学习的常用 loss 有哪些? InfoNCE 的超参数?温度系数对训练的影响?7. gradient checkpointing 原理? gradient _ accumulation 原理?8.多模态大模型的预训练原理?预训练一般分为几个阶段? ViT 现在一般用什么方法进行预训练?9. 手撕:梯度下降求平方根。