发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流1. 介绍一下Transformer的结构,为什么Self-Attention比RNN/CNN更适合推荐系统?2. BatchNorm和LayerNorm的区别?推荐模型里为什么常用LayerNorm?3. 梯度消失和梯度爆炸的原因?如何解决?(从优化器、初始化、网络结构三个角度回答)4. 多任务学习(MTL)的常见结构?MMoE和PLE的区别?5. 多任务学习中,如果不同任务的loss量纲差异很大,如何调整权重?(GradNorm、Uncertainty Weight等方法)6. 推荐系统的经典召回策略有哪些?(协同过滤、双塔模型、FM等)7. 双塔模型的负采样策略有哪些?为什么In-batch Negative Sampling效果不错?8. 如何解决推荐系统的冷启动问题?(基于内容、迁移学习、Meta-Learning等)9. 如何评估推荐系统的多样性?(Coverage、ILS、DPP等)10. 线上A/B测试时,CTR提升但停留时长下降,可能是什么原因?如何排查?11. 数组中的第K个最大元素(快排变种)