给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.为什么要使用HSTU,它相较于其他推荐模型有什么优势?2. 介绍一下双塔模型?3. 训练双塔模型时,怎么处理正负样本不均衡。欠采样的方法有哪些?4. 介绍一下常用于推荐的序列模型?5. Transfomer能用来作为序列模型吗? 但是为什么transfomer不常用于精排呢?6. Transformer和din的参数差异,计算复杂度的区别?7. 介绍一下传统序列模型和transformer的区别?8. Transformer用的归一化函数?为什么语言模型不能使用batch norm?Batch norm和Layer norm的区别是什么?9.有哪些位置编码,各有什么优劣,rope相较于正余弦的优势在哪里,都不需要参数?10.讲一下rope的原理,和公式,rope为什么广泛应用于大模型,但在推荐场景很少用,为什么?11.为什么你使用的HSTU中要加入高效注意力机制?还了解其他的高效注意力机制吗?12.延长序列长度就一定会有效果上的提升吗?最终效果提升了多少?13. 为什么deepseekv3,训练的很快,推理的很快?它用了怎样的量化?MOE,并行手法?14. 还有哪些优化的注意力机制方法,它们的原理是什么?15. 还有哪些加速模型训练的方法?16. 为什么要优化KV-cache?