攒攒人品~ 1. Lora应用于哪些模块?为什么是这两个模块?2. Lora两个矩阵怎么初始化?它们的初始化方式能交换吗?为什么?3. Lora r 怎么设置的?为什么这样设置?4. 残差连接的作用?5. 怎么train一个好的lora?具体超参数怎么设置的怎么调优?为什么不只靠学习率,为什么还需要ahlpa/r?6. top-k,top-p,temperature是怎么实现的?7. Qwen2.5VL做了哪些改进?8. 为什么大模型需要强化学习,比起SFT有什么区别?9. 现在的embedding模型有哪些问题?怎么改进?