淘天算法面经
1. 关于FLUX fill,它的通道拼接顺序能说一下吗?
2. SD 1.5和FLUX的VAE,它俩有什么不一样的地方?FLUX的img_latent通道数是多少,还记得吗?
3. Kontext的位置编码,在处理ref和noise_latent的时候,有什么区别对待吗?
4. Lora的原理能简单讲讲吗?
5. FLUX系列的整体框架是怎样的?里面的MMDIT是怎么处理双流和单流输入的,对于文本和图像这两个不同的模态,它又是怎么融合处理的?
6. 在MMDIT里,联合注意力计算完之后,数据会流经哪些层?