字节实习 番茄大模型推荐算法面经
给我面没招了,感觉自己好菜、面试很难,还是要多多练习
1.为什么要使用HSTU,它相较于其他推荐模型有什么优势?
2. 介绍一下双塔模型?
3. 训练双塔模型时,怎么处理正负样本不均衡。欠采样的方法有哪些?
4. 介绍一下常用于推荐的序列模型?
5. Transfomer能用来作为序列模型吗? 但是为什么transfomer不常用于精排呢?
6. Transformer和din的参数差异,计算复杂度的区别?
7. 介绍一下传统序列模型和transformer的区别?
8. Transformer用的归一化函数?为什么语言模型不能使用batch norm?Batch norm和Layer norm的区别是什么?
9.有哪些位置编码,各有什么优劣,rope相较于正余弦的优势在哪里,都不需要参数?
10.讲一下rope的原理,和公式,rope为什么广泛应用于大模型,但在推荐场景很少用,为什么?
11.为什么你使用的HSTU中要加入高效注意力机制?还了解其他的高效注意力机制吗?
12.延长序列长度就一定会有效果上的提升吗?最终效果提升了多少?
13. 为什么deepseekv3,训练的很快,推理的很快?它用了怎样的量化?MOE,并行手法?
14. 还有哪些优化的注意力机制方法,它们的原理是什么?
15. 还有哪些加速模型训练的方法?
16. 为什么要优化KV-cache?
1.为什么要使用HSTU,它相较于其他推荐模型有什么优势?
2. 介绍一下双塔模型?
3. 训练双塔模型时,怎么处理正负样本不均衡。欠采样的方法有哪些?
4. 介绍一下常用于推荐的序列模型?
5. Transfomer能用来作为序列模型吗? 但是为什么transfomer不常用于精排呢?
6. Transformer和din的参数差异,计算复杂度的区别?
7. 介绍一下传统序列模型和transformer的区别?
8. Transformer用的归一化函数?为什么语言模型不能使用batch norm?Batch norm和Layer norm的区别是什么?
9.有哪些位置编码,各有什么优劣,rope相较于正余弦的优势在哪里,都不需要参数?
10.讲一下rope的原理,和公式,rope为什么广泛应用于大模型,但在推荐场景很少用,为什么?
11.为什么你使用的HSTU中要加入高效注意力机制?还了解其他的高效注意力机制吗?
12.延长序列长度就一定会有效果上的提升吗?最终效果提升了多少?
13. 为什么deepseekv3,训练的很快,推理的很快?它用了怎样的量化?MOE,并行手法?
14. 还有哪些优化的注意力机制方法,它们的原理是什么?
15. 还有哪些加速模型训练的方法?
16. 为什么要优化KV-cache?
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
