1.为什么要用 decoder架构 为什么不用甬encoder-decoder(每次被问到回答不太好,onerec v1用的e-d,v2用了gqaattention的decoder,flops才降很多没用的反而flops超高,所以也不好说decoder only能节省计算资源)2.输入是什么样的?会不会出现序列长度很长的问题3.ra vae四层码本能否确保唯一性?训练过程有没有出现码本坍塌(每次我会说rqvae是其他团队训练的但是还是会问我训练细节,只能说一些理论上我知道的)4.dpo loss是怎么优化的为什么不用ppo5.原始的多模态表征和id表征是怎么联合训练的 表征的参数是更新的吗6.预训练阶段的两个loss是什么7.是怎么解决收敛速度不一致这个问题的代码题给一个先升序再降序的数组,求最大值的下标