商汤大模型实习一面 攒人品中
继续来分享下最近的面经~欢迎友好讨论,信息共享
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
全部评论
相关推荐
查看6道真题和解析 点赞 评论 收藏
分享
04-16 10:20
武汉大学 后端工程师 点赞 评论 收藏
分享
03-03 23:42
复旦大学 Java 点赞 评论 收藏
分享

美团公司福利 3572人发布