快手大模型算法岗面经
1. Transformer现有架构在什么情况下,哪个模块会导致用户意图判别不准?
2. Transformer中的Q、K、V分别来自哪里?代表什么?
3. MOE(混合专家模型)和传统Transformer的核心区别是什么?
4. GRPO 和 SFT 的数据量分别是多少?
5. 项目中数据输入是整段视频,还是拆分使用OCR、ASR分别处理?
6. 力扣岛屿题第10题中,DFS/BFS里计数函数的两个循环分别起到什么作用?
7.上下文场景中,单Agent和多Agent各自的优劣势是什么?
8. 什么情况下选择单Agent,什么情况下选择多Agent?
9.向量向量化后,距离计算的方法有哪些?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2. Transformer中的Q、K、V分别来自哪里?代表什么?
3. MOE(混合专家模型)和传统Transformer的核心区别是什么?
4. GRPO 和 SFT 的数据量分别是多少?
5. 项目中数据输入是整段视频,还是拆分使用OCR、ASR分别处理?
6. 力扣岛屿题第10题中,DFS/BFS里计数函数的两个循环分别起到什么作用?
7.上下文场景中,单Agent和多Agent各自的优劣势是什么?
8. 什么情况下选择单Agent,什么情况下选择多Agent?
9.向量向量化后,距离计算的方法有哪些?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
点赞 评论 收藏
分享
投票
点赞 评论 收藏
分享
点赞 评论 收藏
分享
