秋招之美团算法一面面经

1.为什么要用 decoder架构为什么不用甬encoder-decoder(每次被问到回答不太好,onerecvl用的e-d,v2用了gqaattention 的 decoder, flops才降很多没用的反而 flops超高,所以也不好说 decoder only 能节省计算资源)
2.输入是什么样的?会不会出现序列长度很长的问题
3.ra vae 四层码本能否确保唯一性?训练过程有没有出现码本坍塌(每次我会说rqvae是其他团队训练的但是还是会问我训练细节,只能说·些理论上我知道的)
4.dpo loss 是怎么优化的为什么不用 ppo
5.原始的多模态表征和 id 表征是怎么联合训练的 表征的参数是更新的吗
6.预训练阶段的两个 1oss 是什么
7.是怎么解决收敛速度不一致这个问题的
代码题
给一个先升序再降序的数组,求最大值的下标
全部评论

相关推荐

昨天 21:52
武汉大学 Java
点赞 评论 收藏
分享
11-19 18:44
已编辑
成都理工大学 Java
程序员花海:我面试过100+校招生,大厂后端面试不看ACM,竞赛经历含金量低于你有几份大厂实习 这个简历整体来看不错 可以海投
如何写一份好简历
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务