因果模型:1. 给你两条数据,怎么评判哪条好哪条坏?2. 后门原则是啥?3. DragonNet 是怎么保证输出的单调性和一致性的?4. DragonNet 的损失函数都由哪几部分组成?里面的正则化项是啥意思,有啥用?多模态大模型:5. Transformer 里为啥要除以根号 d?6. Qwen2-VL 的微调,详细讲讲?7. 多模态里,图像处理用了最大池化,那反向传播的时候要怎么处理?8. Dropout 在训练时丢掉的那些神经元,推理的时候会用上吗?9. CLIP 的 batch size 是多少?10. 大模型里的 temperature 参数能控制复读、增强多样性,背后的原理是啥?手...