1. 关于FLUX fill,它的通道拼接顺序能说一下吗?2. SD 1.5和FLUX的VAE,它俩有什么不一样的地方?FLUX的img_latent通道数是多少,还记得吗?3. Kontext的位置编码,在处理ref和noise_latent的时候,有什么区别对待吗?4. Lora的原理能简单讲讲吗?5. FLUX系列的整体框架是怎样的?里面的MMDIT是怎么处理双流和单流输入的,对于文本和图像这两个不同的模态,它又是怎么融合处理的?6. 在MMDIT里,联合注意力计算完之后,数据会流经哪些层?