秋招之美团算法一面面经
1.为什么要用 decoder架构 为什么不用甬encoder-decoder(每次被问到回答不太好,onerec v1用的e-d,v2用了gqaattention的decoder,flops才降很多没用的反而flops超高,所以也不好说decoder only能节省计算资源)
2.输入是什么样的?会不会出现序列长度很长的问题
3.ra vae四层码本能否确保唯一性?训练过程有没有出现码本坍塌(每次我会说rqvae是其他团队训练的但是还是会问我训练细节,只能说一些理论上我知道的)
4.dpo loss是怎么优化的为什么不用ppo
5.原始的多模态表征和id表征是怎么联合训练的 表征的参数是更新的吗
6.预训练阶段的两个loss是什么
7.是怎么解决收敛速度不一致这个问题的
代码题
给一个先升序再降序的数组,求最大值的下标
2.输入是什么样的?会不会出现序列长度很长的问题
3.ra vae四层码本能否确保唯一性?训练过程有没有出现码本坍塌(每次我会说rqvae是其他团队训练的但是还是会问我训练细节,只能说一些理论上我知道的)
4.dpo loss是怎么优化的为什么不用ppo
5.原始的多模态表征和id表征是怎么联合训练的 表征的参数是更新的吗
6.预训练阶段的两个loss是什么
7.是怎么解决收敛速度不一致这个问题的
代码题
给一个先升序再降序的数组,求最大值的下标
全部评论
相关推荐
点赞 评论 收藏
分享
查看4道真题和解析